处理超大CSV文件时,文件中有空字符NULL如\x00这样的,导致读取失败。
这时候使用命令
sed -i 's/\x00//g' <你的csv文件名>
或者
sed 's/\x00//g' <<你的csv文件名>> > 新文件名
就能除去其中的\x00,sed是流编辑器,效率高,不占内存,如果此时你用其他代码去处理文件,如果文件高达20GB,那么电脑就死掉了。
其中的-i表示就地改变源文件。
用python脚本查看文件中是否还有特定字符
fi = open('你的csv路径', 'rb')
data = fi.read()
fi.close()
print(data.find(bytes('\x00'.encode('utf8'))))
如果没有,则输出-1。