最近,需要用python批量处理一些超过4G的文本数据,在此记录一些处理思路。
1 文本查看
拿到新数据,总是想先打开数据,看看字段和数据情况。然而,我的电脑运存只有16G,超过4G的文本数据如果用记事本或notepad++等文本编辑器直接打开,会一下子涌入运存中,打开很慢或者直接打不开。
EmEditor软件读取大文件很方便。不是免费的,需要注册:EmEditor (Text Editor) – Text Editor for Windows supporting large files and Unicode!
2 文本读取
2.1 文本分块读取
import pandas as pd
table = pd.read_csv(r"G:data.txt",
sep = '\t', #制表符分隔
header = None, #我这份数据无表头
encod