- 博客(2)
- 资源 (2)
- 收藏
- 关注
原创 Python处理大数据量文本数据思路
最近,需要用python批量处理一些超过4G的文本数据,在此记录一些处理思路。1 文本查看拿到新数据,总是想先打开数据,看看字段和数据情况。然而,我的电脑运存只有16G,超过4G的文本数据如果用记事本或notepad++等文本编辑器直接打开,会一下子涌入运存中,打开很慢或者直接打不开。EmEditor软件读取大文件很方便。不是免费的,需要注册:EmEditor (Text Editor) – Text Editor for Windows supporting large files and U
2021-09-28 16:31:18 2864
原创 Pandas读取中文文本文件报错:python ‘utf-8‘ codec can‘t decode byte 0xe3 in position 0: unexpected end of data
近日用pandas的read_csv读取中文文本文件时报错:python 'utf-8' codec can't decode byte 0xe3 in position 0: unexpected end of data。看到错误以为是读取时encoding选择错误,某个二进制块无法用 'utf-8'读取,不应该选择 'utf-8'。于是将utf-8,gb2312,gb18030,gbk,utf-8-sig,cp936,big5等中文编码都试了一遍,还是没有解决错误。用编码ISO-8859-1读取没有
2021-09-28 16:01:00 6143
第六次人口普查全国各街道人口数据
2020-12-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人