遇到SettingwithCopyWarning的问题,搜到一篇很棒的文章,记录一些心得体会。
原文中一些重点
- SettingWithCopyWarning 只在你进行 Set 时才会发生,但在进行 Get 操作时,最好也避免使用链式索引。链式操作代码效率较低,而且只要稍后进行赋值,就会导致问题。
- 对多类型对象的索引 Get 操作将始终返回副本。而为了提高效率,索引器对单类型对象的操作几乎总是返回一个视图,需要注意的是,这取决于对象的内存布局,并不能完全保证。
- SettingWithCopyWarning 让我们知道 Pandas 无法确定第一个 getitem 调用是否返回了视图或副本,因此不清楚该赋值是否更改了原始对象。换一种说法就是:“我们是否正在修改原始数据?”这一问题的答案是未知的。
心得
-
当 Pandas 检测到链式赋值(Chained Assignment)时会生成警告。为了方便后续的解释,先来解释一些术语
- 赋值(Assignment) - 设置某些变量值的操作,例如
data = pd.read_csv('xbox-3-day-auctions.csv')
,有时会将这个操作称之为 设置(Set) 。 - 访问(Access) - 返回某些值的操作,具体参照下方的索引和链式索引示例。有时会将这个操作称之为 获取(Get) 。
- 索引(Indexing) - 任何引用数据子集的赋值或访问方法,例如
data[1:5]
。 - 链式索引(Chaining) - 连续使用多个索引操作,例如
data[1:5][1:3]
。
链式赋值是链式索引和赋值的组合
- 赋值(Assignment) - 设置某些变量值的操作,例如
-
SettingwithCopyWarning只有在链式赋值操作的时候才会warning,SettingwithCopyWarning的意思是其实就一句话——“不确定现在被修改的是视图还是副本?不确定是否是原数据。”
-
哪怕语句被拆分,但从原始数据筛出来的时候没有进行原子操作或主动复制,都算链式赋值。例如:
winners = data.loc[data.bid == data.price] winners.loc[304, 'bidder'] = 'therealname'
data.loc[data.bid == data.price].loc[304, 'bidder'] = 'therealname'
上面两个操作其实是等同的,属于链式赋值,因为产生了中间量(在第二种方式中,中间量是不可见的,但其实存在)。
所以如果想修改winners而不想影响到data,就显式地复制吧。winners = data.loc[data.bid == data.price].copy() winners.loc[304, 'bidder'] = 'therealname'
如果你想修改data,则
data.loc[(data.bid == data.price)&(data.index==304),bidder'] = 'therealname'
-
如果被赋值的数据是副本,则复制操作无法影响到原数据;如果被赋值的数据是视图,则被赋值后会影响到原数据。
-
如果想对原数据做赋值操作,就需要使用loc[条件,列名]函数,这个函数是原子的,不会产生警告。
-
这个警告的产生其实是由于pandas为了保持高性能的同时也要兼顾多种索引功能
,是历史遗留问题。 -
每次做操数据前,都要想清楚,当前数据是否某个数据的子集?如果是子集的话,两者之间的关系是视图还是副本?