pandas 如何筛选某一行包含字符串_Python中的神器Pandas，但是有人说Pandas慢...

最新推荐文章于 2022-03-24 15:43:47 发布

weixin_39836751

最新推荐文章于 2022-03-24 15:43:47 发布

阅读量323

点赞数

文章标签： pandas 如何筛选某一行包含字符串

本文链接：https://blog.csdn.net/weixin_39836751/article/details/112193544

版权

本文介绍了如何充分利用Pandas的特性提高数据处理效率。通过实例展示了如何将时间序列数据转换为datetime类，从而提高处理速度。讨论了避免遍历操作和使用`.apply()`、`.itertuples()`、`.iterrows()`等方法的优缺点，并推荐使用向量化操作以提升性能。此外，还提到了使用HDFStore存储预处理数据以减少重复处理的时间成本。

摘要由CSDN通过智能技术生成

如果你从事大数据工作，用Python的Pandas库时会发现很多惊喜。Pandas在数据科学和分析领域扮演越来越重要的角色，尤其是对于从Excel和VBA转向Python的用户。

所以，对于数据科学家，数据分析师，数据工程师，Pandas是什么呢？Pandas文档里的对它的介绍是：“快速、灵活、和易于理解的数据结构，以此让处理关系型数据和带有标签的数据时更简单直观。”

快速、灵活、简单和直观，这些都是很好的特性。当你构建复杂的数据模型时，不需要再花大量的开发时间在等待数据处理的任务上了。这样可以将更多的精力集中去理解数据。

但是，有人说Pandas慢…

第一次使用Pandas时，有人评论说：Pandas是很棒的解析数据的工具，但是Pandas太慢了，无法用于统计建模。第一次使用的时候，确实如此，真的慢。

但是，Pandas是建立在NumPy数组结构之上的。所以它的很多操作通过NumPy或者Pandas自带的扩展模块编写，这些模块用Cython编写并编译到C，并且在C上执行。因此，Pandas不也应该很快的吗？

事实上，使用姿势正确的话，Pandas确实很快。

在使用Pandas时，使用纯“python”式代码并不是最效率的选择。和NumPy一样，Pandas专为向量化操作而设计，它可在一次扫描中完成对整列或者数据集的操作。而单独处理每个单元格或某一行这种遍历的行为，应该作为备用选择。

本教程

先说明下，本教程不是引导如何过度优化Pandas代码。因为Pandas在正确的使用下已经很快了。此外，优化代码和编写清晰的代码之间的差异是巨大的。

这是一篇关于“如何充分利用Pandas内置的强大且易于上手的特性”的指引。此外，你将学习到一些实用的节省时间的技巧。在这篇教程中，你将学习到：

· 使用datetime时间序列数据的优势

· 处理批量计算更效率的方法

· 利用HDFStore节省时间

在本文中，耗电量时间序列数据将被用于演示本主题。加载数据后，我们将逐步了解更有效率的方法取得最终结果。对于Pandas用户而言，会有多种方法预处理数据。但是这不意味着所有方法都适用于更大、更复杂的数据集。

任务

本例使用能源消耗的时间序列数据计算一年能源的总成本。由于不同时间段的电价不同，因此需要将各时段的耗电量乘上对应时段的电价。

从CSV文件中可以读取到两列数据：日期时间和电力消耗（千瓦）

每行数据中都包含每小时耗电量数据，因此整年会产生8760（356×24）行数据。每行的小时数据表示计算的开始时间，因此1/1/13 0：00的数据指1月1号第1个小时的耗电量数据。

用Datetime类节省时间

首先用Pandas的一个I/O函数读取CSV文件：

>>> import pandas as pd
>>> pd.__version__
'0.23.1'

>>> df = pd.read_csv('文件路径')
>>> df.head()
     date_time  energy_kwh
0  1/1/13 0:00       0.586
1  1/1/13 1:00       0.580
2  1/1/13 2:00       0.572
3  1/1/13 3:00       0.596
4  1/1/13 4:00       0.592

这结果看上去挺好，但是有个小问题。Pandas 和NumPy有个数据类型dtypes概念。假如不指定参数的话，date_time这列将会被归为默认类object：

>>> df.dtypes
date_time      object
energy_kwh    float64
dtype: object

>>> type(df.iat[0, 0])
str

默认类object不仅是str类的容器，而且不能齐整的适用于某一种数据类型。字符串str类型的日期在数据处理中是非常低效的，同时内存效率也是低下的。

为了处理时间序列数据，需要将date_time列格式化为datetime类的数组，Pandas 称这种数据类型为时间戳Timestamp。用Pandas进行格式化相当简单：

>>> df['date_time'] = pd.to_datetime(df['date_time'])
>>> df['date_time'].dtype
datetime64[ns]

至此，新的df和CSV file内容基本一样。它有两列和一个索引。

>>> df.head()
               date_time    energy_kwh
0    2013-01-01 00:00:00         0.586
1    2013-01-01 01:00:00         0.580
2

最低0.47元/天解锁文章

weixin_39836751

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫