阅读SettingwithCopyWarning分析有感

遇到SettingwithCopyWarning的问题,搜到一篇很棒的文章,记录一些心得体会。

Pandas 中 SettingwithCopyWarning 的原理和解决方案

原文中一些重点
  1. SettingWithCopyWarning 只在你进行 Set 时才会发生,但在进行 Get 操作时,最好也避免使用链式索引。链式操作代码效率较低,而且只要稍后进行赋值,就会导致问题。
  2. 对多类型对象的索引 Get 操作将始终返回副本。而为了提高效率,索引器对单类型对象的操作几乎总是返回一个视图,需要注意的是,这取决于对象的内存布局,并不能完全保证。
  3. SettingWithCopyWarning 让我们知道 Pandas 无法确定第一个 getitem 调用是否返回了视图或副本,因此不清楚该赋值是否更改了原始对象。换一种说法就是:“我们是否正在修改原始数据?”这一问题的答案是未知的。
心得
  1. 当 Pandas 检测到链式赋值(Chained Assignment)时会生成警告。为了方便后续的解释,先来解释一些术语

    • 赋值(Assignment) - 设置某些变量值的操作,例如 data = pd.read_csv('xbox-3-day-auctions.csv'),有时会将这个操作称之为 设置(Set) 。
    • 访问(Access) - 返回某些值的操作,具体参照下方的索引和链式索引示例。有时会将这个操作称之为 获取(Get) 。
    • 索引(Indexing) - 任何引用数据子集的赋值或访问方法,例如 data[1:5]
    • 链式索引(Chaining) - 连续使用多个索引操作,例如data[1:5][1:3]

    链式赋值是链式索引和赋值的组合

  2. SettingwithCopyWarning只有在链式赋值操作的时候才会warning,SettingwithCopyWarning的意思是其实就一句话——“不确定现在被修改的是视图还是副本?不确定是否是原数据。”

  3. 哪怕语句被拆分,但从原始数据筛出来的时候没有进行原子操作或主动复制,都算链式赋值。例如:

    winners = data.loc[data.bid == data.price]
    winners.loc[304, 'bidder'] = 'therealname'
    
    data.loc[data.bid == data.price].loc[304, 'bidder'] = 'therealname'
    

    上面两个操作其实是等同的,属于链式赋值,因为产生了中间量(在第二种方式中,中间量是不可见的,但其实存在)。
    所以如果想修改winners而不想影响到data,就显式地复制吧。

    winners = data.loc[data.bid == data.price].copy()
    winners.loc[304, 'bidder'] = 'therealname'
    

    如果你想修改data,则

    data.loc[(data.bid == data.price)&(data.index==304),bidder'] = 'therealname'
    
  4. 如果被赋值的数据是副本,则复制操作无法影响到原数据;如果被赋值的数据是视图,则被赋值后会影响到原数据。

  5. 如果想对原数据做赋值操作,就需要使用loc[条件,列名]函数,这个函数是原子的,不会产生警告。

  6. 这个警告的产生其实是由于pandas为了保持高性能的同时也要兼顾多种索引功能
    ,是历史遗留问题。

  7. 每次做操数据前,都要想清楚,当前数据是否某个数据的子集?如果是子集的话,两者之间的关系是视图还是副本?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值