【python 处理亿级数据】使用 Pandas 处理亿级数据

此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。事实确实如此,在数据分析领域,那么如何处理亿级数据呢,pandas提供了IO工具可以将大文件分块读取,测试了一下性能,非常不错。可谓是瑞士中的军刀

python 读取亿级数据代码如下:

# encoding: utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import time
import pandas as pd

time1=time.time()
import pandas as pd
# Pandas提供了IO工具可以将大文件分块读取
# 使用不同分块大小来读取再调用 pandas.concat 连接DataFrame,chunkSize设置在1000万条左右速度优化比较明显。
# 实验结果足以说明,在非">5TB"数据的情况下,Python的表现已经能让擅长使用统计分析语言的数据分析师游刃有余。
reader = pd.read_csv('C:/taobao/22.csv', iterator=True)


loop = True
chunkSize =10000000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print "Iteration is stopped."
df = pd.concat(chunks, ignore_index=True)
print df
time2=time.time()
print u'总共耗时:' + str(time2 - time1) + 's'
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东华果汁哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值