python能处理多大的数据-使用Python Pandas处理亿级数据

最新推荐文章于 2024-05-20 21:12:10 发布

weixin_37988176

最新推荐文章于 2024-05-20 21:12:10 发布

阅读量3.5k

点赞数

本文介绍了使用Python和Pandas在亿级数据上的处理经验。通过分块读取和concat操作，展示了如何高效地加载和清洗大规模数据。实验表明，Python在非5TB以上数据规模时，性能表现良好，适合数据分析师进行数据分析。

摘要由CSDN通过智能技术生成

在数据分析领域，最热门的莫过于Python和R语言，此前有一篇文章《别老扯什么Hadoop了，你的数据根本不够大》指出：只有在超过5TB数据量的规模下，Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据，千万级数据已经是关系型数据库的查询分析瓶颈，之前使用过Hadoop对大量文本进行分类，这次决定采用Python来处理数据：

硬件环境

CPU：3.5 GHz Intel Core i7

内存：32 GB HDDR 3 1600 MHz

硬盘：3 TB Fusion Drive

数据分析工具

Python：2.7.6

Pandas：0.15.0

IPython notebook：2.0.0

源数据如下表所示：

TableSizeDesc

ServiceLogs

98,706,832 rows x 14 columns

8.77 GB

交易日志数据，每个交易会话可以有多条交易

ServiceCodes

286 rows × 8 columns

20 KB

交易分类的字典表

数据读取

启动IPython notebook，加载pylab环境：

ipython notebook --pylab=inline

Pandas提供了IO工具可以将大文件分块读取，测试了一下性能，完整加载9800万条数据也只需要263秒左右，还是相当不错了。

importpandas aspd

reader =pd.read_csv('data/servicelogs',it

最低0.47元/天解锁文章

weixin_37988176

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
python能处理多大的数据-使用Python Pandas处理亿级数据

在数据分析领域，最热门的莫过于Python和R语言，此前有一篇文章《别老扯什么Hadoop了，你的数据根本不够大》指出：只有在超过5TB数据量的规模下，Hadoop才是一个合理的技术选择。这次拿到近亿条日志数据，千万级数据已经是关系型数据库的查询分析瓶颈，之前使用过Hadoop对大量文本进行分类，这次决定采用Python来处理数据：硬件环境CPU：3.5 GHz Intel Core i7内存：3...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。