使用Python Pandas处理亿级数据

最新推荐文章于 2023-08-18 17:11:49 发布

Coisini、

最新推荐文章于 2023-08-18 17:11:49 发布

阅读量1.4k

点赞数 1

分类专栏：其他相关情报分析文章标签： python 人生苦短 pandas处理大数据数据分析

本文链接：https://blog.csdn.net/kclax/article/details/92391222

版权

在这里插入图片描述

在数据分析领域，最热门的莫过于Python和R语言，此前有一篇文章《别老扯什么Hadoop了，你的数据根本不够大》指出：只有在超过5TB数据量的规模下，Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据，千万级数据已经是关系型数据库的查询分析瓶颈，之前使用过Hadoop对大量文本进行分类，这次决定采用Python来处理数据：

硬件环境
CPU：3.5 GHz Intel Core i7
内存：32 GB HDDR 3 1600 MHz
硬盘：3 TB Fusion Drive
数据分析工具
Python：2.7.6
Pandas：0.15.0
IPython notebook：2.0.0
源数据如下表所示：

Table	Size	Desc
ServiceLogs	98,706,832 rows x 14 columns	8.77 GB	交易日志数据，
每个交易会话可以有多条交易

ServiceCodes	286 rows × 8 columns	20 KB	交易分类的字典表
数据读取
启动IPython notebook，加载pylab环境：

、

ipython notebook --pylab=inline

Pandas提供了IO工具可以将大文件分块读取，测试了一下性能，完整加载9800万条数据也只需要263秒左右，还是相当不错了。

import pandas as pd
reader = pd.read_csv('data/servicelo

最低0.47元/天解锁文章

Coisini、

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
使用Python Pandas处理亿级数据

在数据分析领域，最热门的莫过于Python和R语言，此前有一篇文章《别老扯什么Hadoop了，你的数据根本不够大》指出：只有在超过5TB数据量的规模下，Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据，千万级数据已经是关系型数据库的查询分析瓶颈，之前使用过Hadoop对大量文本进行分类，这次决定采用Python来处理数据：硬件环境CPU：3.5 GHz Intel Core i7...
复制链接

扫一扫