用这几个方法提高pandas运行速度

本文介绍了如何提高pandas的运行速度,包括利用datetime的优点、批量计算、HDFStore存储数据、优化datetime操作、避免循环操作、使用矢量化方法和NumPy集成。通过正确使用pandas的方法,可以显著提升数据处理效率。
摘要由CSDN通过智能技术生成

前言

当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的:

“快速,灵活,富有表现力的数据结构,旨在使”关系“或”标记“数据的使用既简单又直观。”

我们知道pandas的两个主要数据结构:dataframeseries,我们对数据的一些操作都是基于这两个数据结构的。但在实际的使用中,我们可能很多时候会感觉运行一些数据结构的操作会异常的慢。一个操作慢几秒可能看不出来什么,但是一整个项目中很多个操作加起来会让整个开发工作效率变得很低。有的朋友抱怨pandas简直太慢了,其实对于pandas的一些操作也是有一定技巧的。

pandas是基于numpy库的数组结构上构建的,并且它的很多操作都是(通过numpy或者pandas自身由Cpython实现并编译成C的扩展模块)在C语言中实现的。因此,如果正确使用pandas的话,它的运行速度应该是非常快的。

本篇将要介绍几种pandas中常用到的方法,对于这些方法使用存在哪些需要注意的问题,以及如何对它们进行速度提升。

将datetime数据与时间序列一起使用的优点

进行批量计算的最有效途径

通过HDFStore存储数据节省时间

使用Datetime数据节省时间

我们来看一个例子。

 

从运行上面代码得到的结果来看,好像没有什么问题。但实际上pandas和numpy都有一个dtypes 的概念。如果没有特殊声明,那么date_time将会使用一个 object 的dtype类型,如下面代码所示:

 

object 类型像一个大的容器,不仅仅可以承载 str,也可以包含那些不能很好地融进一个数据类型的任何特征列。而如果我们将日期作为 str 类型就会极大的影响效率。

因此,对于时间序列的数据而言,我们需要让上面的date_time列格式化为datetime对象数组(pandas称之为时间戳)。pandas在这里操作非常简单,操作如下:

 

我们来运行一下这个df看看转化后的效果是什么样的。

 

date_time的格式已经自动转化了,但这还没完,在这个基础上,我们还是可以继续提高运行速度的。如何提速呢?为了更好的对比,我们首先通过 timeit 装饰器来测试一下上面代码的转化时间。

 

1.61s,看上去挺快,但其实可以更快,我们来看一下下面的方法

为了优化上述代码以提高运行速度,我们可以考虑以下几个方面: 1. **批量请求**:如果`option_sse_daily_sina`支持批量查询,可以一次性获取多个合约的数据,而不是逐个请求。这样能减少网络往返次数。 2. **缓存**:如果数据频繁重复请求,可以考虑利用缓存技术,比如`pandas_datareader`中的`cache_read_csv`功能,或者自建缓存机制,避免每次都从API拉取。 3. **并行处理**:使用`concurrent.futures`库可以并行下载数据,通过多线程或多进程加快处理速度。例如,可以使用`ThreadPoolExecutor`或`ProcessPoolExecutor`。 4. **内存管理**:尽量在读取数据时只保留必要的行,避免一次性加载所有数据导致内存消耗过大。使用`chunksize`参数分块处理大文件。 5. **数据筛选**:如果不需要整个历史数据,可以根据需求只选择部分日期范围,减少处理的数据量。 6. **数据预处理**:如果数据清洗工作较轻,可以在下载之前确定需要哪些列,避免不必要的列转换或计算。 7. **数据库存储**:如果数据需要长期保存,可以考虑将结果存储到数据库中,下次直接查询,而不是每次都从零开始处理。 以下是简化后的示例代码片段,展示了如何使用`concurrent.futures`并行下载数据: ```python import concurrent.futures import akshare as ak # ... (其他不变) with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor: futures = {executor.submit(ak.option_sse_daily_sina, symbol=one_contract[:8]): one_contract for one_contract in contract_50etf_code} results = [future.result() for future in concurrent.futures.as_completed(futures)] dataframes = [result for result in results if result is not None] trade = pd.concat(dataframes, ignore_index=True) # ... (添加code列和info()) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值