在Python中利用Pandas库处理大数据的简单介绍

最新推荐文章于 2023-06-18 19:00:45 发布

南馆潇湘 *

最新推荐文章于 2023-06-18 19:00:45 发布

阅读量1k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/haoxun04/article/details/104203770

版权

本文介绍了使用Python的Pandas库处理大数据的步骤，包括分块读取、数据清洗和数据处理。通过实例展示了Pandas在数据读取、空值处理、数据类型转换和聚合操作上的高效性能。

摘要由CSDN通过智能技术生成

这篇文章简单介绍了在Python中利用Pandas处理大数据的过程,Pandas库的使用能够很好地展现数据结构,是近来Python项目中经常被使用使用的热门技术,需要的朋友可以参考下
数据分析领域，最热门的莫过于Python和R语言，此前有一篇文章《别老扯什么Hadoop了，你的数据根本不够大》指出：只有在超过5TB数据量的规模下，Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据，千万级数据已经是关系型数据库的查询分析瓶颈，之前使用过Hadoop对大量文本进行分类，这次决定采用Python来处理数据：

硬件环境
    CPU：3.5 GHz Intel Core i7
    内存：32 GB HDDR 3 1600 MHz
    硬盘：3 TB Fusion Drive
数据分析工具
    Python：2.7.6
    Pandas：0.15.0
    IPython notebook：2.0.0

源数据如下表所示：
在这里插入图片描述
数据读取

启动IPython notebook，加载pylab环境：

ipython notebook --pylab=inline

Pandas提供了IO工具可以将大文件分块读取，测试了一下性能，完整加载9800万条数据也只需要263秒左右，还是相当不错了。

import pandas as pd
reader = pd.read_csv(‘data/servicelogs’, iterator=True)
try:
df = reader.get_chunk(100000000)
except StopIteration:
print “Iteration is stopped.”
在这里插入图片描述
使用不同分块大小来读取再调用 pandas.concat 连接DataFrame，chunkSize设置在1000万条左右速度优化比较明显。

    loop = True
chunkSize = 100000
chunks = []
while loop:
  try:
    chunk = reader.get_chunk(chunk

最低0.47元/天解锁文章

南馆潇湘 *

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录