正常情况下读取CSV文件习惯使用pandas库中的read_csv函数
import pandas as pd
data = pd.read_csv('路径')
但是这两天处理GB级数据时,发现速度太慢,于是分享两种加速方法
第一种 使用datatable库中的fread函数
import datatable as dt
data = dt.fread('路径').to_pandas #如果加.to_pandas 与pd.read_csv读取的数据格式一样
example:读取相同数据集,datatable只用了16s,而pandas用了2min48s
第二种 使用cudf库加速
cudf好像只有在LINUX系统下才能配置
GitHub:https://github.com/rapidsai/cudf
感兴趣的可以配置试试
如果懒得配置的使用第一种方式足够了