python安装pandas太慢_还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法

最新推荐文章于 2024-07-27 07:11:46 发布

weixin_39951930

最新推荐文章于 2024-07-27 07:11:46 发布

阅读量1.8k

点赞数

文章标签： python安装pandas太慢

本文介绍了如何提升pandas的运行效率，包括将datetime数据转化为datetime对象以提高性能，避免使用循环操作并利用矢量化操作、.apply()方法、.isin()方法和digitize()函数。此外，还提到了使用HDFStore存储处理后的数据以避免重复处理，从而提高整体开发效率。

摘要由CSDN通过智能技术生成

作者：xiaoyu

微信公众号：Python数据科学

前言

当大家谈到数据分析时，提及最多的语言就是Python和SQL。Python之所以适合数据分析，是因为它有很多第三方强大的库来协助，pandas就是其中之一。pandas的文档中是这样描述的：

“快速，灵活，富有表现力的数据结构，旨在使”关系“或”标记“数据的使用既简单又直观。”

我们知道pandas的两个主要数据结构：dataframe和series，我们对数据的一些操作都是基于这两个数据结构的。但在实际的使用中，我们可能很多时候会感觉运行一些数据结构的操作会异常的慢。一个操作慢几秒可能看不出来什么，但是一整个项目中很多个操作加起来会让整个开发工作效率变得很低。有的朋友抱怨pandas简直太慢了，其实对于pandas的一些操作也是有一定技巧的。

pandas是基于numpy库的数组结构上构建的，并且它的很多操作都是(通过numpy或者pandas自身由Cpython实现并编译成C的扩展模块)在C语言中实现的。因此，如果正确使用pandas的话，它的运行速度应该是非常快的。

本篇将要介绍几种pandas中常用到的方法，对于这些方法使用存在哪些需要注意的问题，以及如何对它们进行速度提升。

将datetime数据与时间序列一起使用的优点

进行批量计算的最有效途径

通过HDFStore存储数据节省时间

使用Datetime数据节省时间

我们来看一个例子。

>>> import pandas as pd

>>> pd.__version__

'0.23.1'

# 导入数据集

>>> df = pd.read_csv('demand_profile.csv')

>>> df.head()

date_time energy_kwh

0 1/1/13 0:00 0.586

1 1/1/13 1:00 0.580

2 1/1/13 2:00 0.572

3 1/1/13 3:00 0.596

4 1/1/13 4:00 0.592

从运行上面代码得到的结果来看，好像没有什么问题。但实际上pandas和numpy都有一个dtypes 的概念。如果没有特殊声明，那么date_time将会使用一个 object 的dtype类型，如下面代码所示：

>>> df.dtypes

date_time object

energy_kwh float64

dtype: object

>>> type(df.iat[0, 0])

str

object 类型像一个大的容器，不仅仅可以承载 str，也可以包含那些不能很好地融进一个数据类型的任何特征列。而如果我们将日期作为 str 类型就会极大的影响效率。

因此，对于时间序列的数据而言，我们需要让上面的date_time列格式化为datetime对象数组(pandas称之为时间戳)。pandas在这里操作非常简单，操作如下：

>>> df['date_time'] = pd.to_datetime(df['date_time'])

>>> df['date_time'].dtype

datetime64[ns]

我们来运行一下这个df看看转化后的效果是什么样的。

>>> df.head()

date_time energy_kwh

0 2013-01-01 00:00:00 0.586

1 2013-01-01 01:00:00 0.580

2 2013-01-01 02:00:00 0.572

3 2013-01-01 03:00:00 0.596

4 2013-01-01 04:00:00 0.592

date_time的格式已经自动转化了，但这还没完，在这个基础上，我们还是可以继续提高运行速度的。如何提速呢？为了更好的对比，我们首先通过 timeit 装饰器来测试一下上面代码的转化时间。

>>> @timeit(repeat=3, number=10)

... def convert(df, column_name):

... return pd.to_datetime(df[column_name])

>>> df['date_time'] = convert(df, 'date_time')

Best of 3 trials with 10 function calls per trial:

Function `convert` ran in average of 1.610 seconds.

1.61s，看上去挺快，但其实可以更快，我们来看一下下面的方法。

>>

最低0.47元/天解锁文章

weixin_39951930

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python安装pandas太慢_还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法

作者：xiaoyu微信公众号：Python数据科学前言当大家谈到数据分析时，提及最多的语言就是Python和SQL。Python之所以适合数据分析，是因为它有很多第三方强大的库来协助，pandas就是其中之一。pandas的文档中是这样描述的：“快速，灵活，富有表现力的数据结构，旨在使”关系“或”标记“数据的使用既简单又直观。”我们知道pandas的两个主要数据结构：dataframe和serie...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。