【pandas】读取大型文件技巧

当csv文件特别大时,pandas读取整个文件非常的耗时,比如我这边有文件大小为5.77G

!wc -l x.csv

行数2390492也非常多;
用pandas加载x.csv,花了将近2分钟。 为了加快速度,将使用python 包datatable

import datatable as dt
%%time
train_data_datatable = dt.fread('x.csv')
CPU times: user 27.6 s, sys: 3.31 s, total: 30.9 s
Wall time: 8.04 s

将数据convert 到pandas dataframe格式

%%time

train_data = train_data_datatable.to_pandas()
CPU times: user 7.04 s, sys: 3.37 s, total: 10.4 s
Wall time: 5.24 s

现在,我们在不到17秒的时间内加载了x.csv。

参考:

  1. https://www.kaggle.com/carlmcbrideellis/jane-street-eda-of-day-0-and-feature-importance
  2. https://www.kaggle.com/rohanrao/tutorial-on-reading-large-datasets
  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值