pandas性能提升之避免直接对大DataFrame多次索引和访问

62 篇文章 5 订阅
10 篇文章 1 订阅

       DataFrame是一个比较重量级的数据结构,当我们对一个比较大的DataFrame进行多次重复性访问时,效率是很低的。比如,如果我们需要对一个DataFrame逐行进行一个相对复杂一点的操作,尽管可以使用相对高效的apply进行逐行遍历,但是如果我们对每行的操作需要同时用到其他行时,如果是直接对DataFrame进行操作,这时就避免不了对DataFrame进行索引操作,而实际上对DataFrame的索引操作是一种低效的行为,特别是DataFrame较大的时候,对此,我们可以采取下列方式来提高效率:

1、避免直接在大的DataFrame上直接索引,可以先一次性提取出需要行或列,然后再在相对更小的DataFrame上进行索引操作;

2、进一步的,可以把DataFrame转换为字典,直接用DataFrame的to_dict方法即可实现快速转换,然后再在字典上进行必要的索引操作,这是因为python原生数据结构中,对于成员访问操作,字典是相对最高效的一种数据结构,因此当我们将DataFrame转换为字典后,再进行数据访问,可以极大的提升效率,特别是当DataFrame较大的时候,这种效率提升效果将会非常明显。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值