用这几个方法提高pandas运行速度

最新推荐文章于 2024-09-16 22:33:23 发布

Python 学习者

最新推荐文章于 2024-09-16 22:33:23 发布

阅读量6.7k

点赞数 3

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_38682860/article/details/90114632

版权

本文介绍了如何提高pandas的运行速度，包括利用datetime的优点、批量计算、HDFStore存储数据、优化datetime操作、避免循环操作、使用矢量化方法和NumPy集成。通过正确使用pandas的方法，可以显著提升数据处理效率。

摘要由CSDN通过智能技术生成

前言

当大家谈到数据分析时，提及最多的语言就是Python和SQL。Python之所以适合数据分析，是因为它有很多第三方强大的库来协助，pandas就是其中之一。pandas的文档中是这样描述的：

“快速，灵活，富有表现力的数据结构，旨在使”关系“或”标记“数据的使用既简单又直观。”

我们知道pandas的两个主要数据结构：dataframe和series，我们对数据的一些操作都是基于这两个数据结构的。但在实际的使用中，我们可能很多时候会感觉运行一些数据结构的操作会异常的慢。一个操作慢几秒可能看不出来什么，但是一整个项目中很多个操作加起来会让整个开发工作效率变得很低。有的朋友抱怨pandas简直太慢了，其实对于pandas的一些操作也是有一定技巧的。

pandas是基于numpy库的数组结构上构建的，并且它的很多操作都是（通过numpy或者pandas自身由Cpython实现并编译成C的扩展模块）在C语言中实现的。因此，如果正确使用pandas的话，它的运行速度应该是非常快的。

本篇将要介绍几种pandas中常用到的方法，对于这些方法使用存在哪些需要注意的问题，以及如何对它们进行速度提升。

将datetime数据与时间序列一起使用的优点

进行批量计算的最有效途径

通过HDFStore存储数据节省时间

使用Datetime数据节省时间

我们来看一个例子。

从运行上面代码得到的结果来看，好像没有什么问题。但实际上pandas和numpy都有一个dtypes 的概念。如果没有特殊声明，那么date_time将会使用一个 object 的dtype类型，如下面代码所示：

object 类型像一个大的容器，不仅仅可以承载 str，也可以包含那些不能很好地融进一个数据类型的任何特征列。而如果我们将日期作为 str 类型就会极大的影响效率。

因此，对于时间序列的数据而言，我们需要让上面的date_time列格式化为datetime对象数组（pandas称之为时间戳）。pandas在这里操作非常简单，操作如下：

我们来运行一下这个df看看转化后的效果是什么样的。

date_time的格式已经自动转化了，但这还没完，在这个基础上，我们还是可以继续提高运行速度的。如何提速呢？为了更好的对比，我们首先通过 timeit 装饰器来测试一下上面代码的转化时间。

1.61s，看上去挺快，但其实可以更快，我们来看一下下面的方法

最低0.47元/天解锁文章

Python 学习者

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。