@TOC
使用pandas切分超大数据文件
我现在需要将一个6.33GB的sql文件上传到数据库,但文件太大,上传过程太慢,所以我选择用pandas将文件切分。
1.导入pandas包
import pandas as pd
2.用chunksize指定分块读取
第一个参数不用说了。
header=None是让它没有列名,不然它就自动取我数据的第一行为列名了。
sep是设置数据分隔符。我的数据是换行符分隔所以设置的\n,根据需求也可以设置成空格、逗号之类的,具体代码可以自己查一查。
chunksize这个参数是设置迭代数量,我这里设置的是200,0000,