pandas性能提升之避免直接对大DataFrame多次索引和访问

最新推荐文章于 2024-01-03 15:42:31 发布

S_o_l_o_n

最新推荐文章于 2024-01-03 15:42:31 发布

阅读量693

点赞数 1

分类专栏：数据分析 pandas 性能提升

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/S_o_l_o_n/article/details/98480624

版权

数据分析同时被 3 个专栏收录

92 篇文章 10 订阅

订阅专栏

62 篇文章 5 订阅

订阅专栏

10 篇文章 1 订阅

订阅专栏

DataFrame是一个比较重量级的数据结构，当我们对一个比较大的DataFrame进行多次重复性访问时，效率是很低的。比如，如果我们需要对一个DataFrame逐行进行一个相对复杂一点的操作，尽管可以使用相对高效的apply进行逐行遍历，但是如果我们对每行的操作需要同时用到其他行时，如果是直接对DataFrame进行操作，这时就避免不了对DataFrame进行索引操作，而实际上对DataFrame的索引操作是一种低效的行为，特别是DataFrame较大的时候，对此，我们可以采取下列方式来提高效率：

1、避免直接在大的DataFrame上直接索引，可以先一次性提取出需要行或列，然后再在相对更小的DataFrame上进行索引操作；

2、进一步的，可以把DataFrame转换为字典，直接用DataFrame的to_dict方法即可实现快速转换，然后再在字典上进行必要的索引操作，这是因为python原生数据结构中，对于成员访问操作，字典是相对最高效的一种数据结构，因此当我们将DataFrame转换为字典后，再进行数据访问，可以极大的提升效率，特别是当DataFrame较大的时候，这种效率提升效果将会非常明显。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。