python pandas csv utf_8_sig_pandas to_csv read_csv编码

我在pandas(v21.1)(python3,Windows(220k行)中构建了一个数据帧,并将其写入csv。

在Excel中打开,文件看起来很好(220k行)。

使用pandas读入,现在文件有额外的40k行,并且经常有各种编码错误。在

尝试过多个to_csv/read_csvencoding=组合,包括:

utf-8、utf-8-sig、cp1252、ascii和{}

写出:encoding='cp1252' or 'ascii' - UnicodeEncodeError: 'charmap' codec can't encode character '\u1e28' in position 261: character maps to

encoding='utf-8',`utf-8-sig`,`utf-16`,`cp1252`, - no Python error in the console, but still doesn't render correctly when I import it again.

当我阅读时,我经常收到警告:

DtypeWarning: Columns (0,1,3,4,6,7,8,9,10,12,13,14,15,16,17,18,19,20,21,22,23,25,26,27,28,29,30,31,32,37,38,39,40,41,42,43,46,47,48,49,50,53,54,55,56,57,58,59,60,61,62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,91,92,93,94,95,96,97,98,99,100,101,102) have mixed types. Specify dtype option on import or set low_memory=False.

interactivity=interactivity, compiler=compiler, result=result)

我尝试为列指定dtypes,方法是在to_csv时保存dtypesdict,并使用相同的dict作为read_csv的输入,但它也给出了一个错误,因为找到了意外的数据类型,例如ValueError: Integer column has NA values in column 33

当我把它作为Excel文件输出/输入时,它似乎工作得很好。

当我尝试安装Python2.7时,也会出现同样的问题。在

我怀疑问题可能与我导入的第三方csv文件有关,该文件似乎只在我使用“cp1252”时才导入。我试着用utf-8将这个输入文件重新保存在Excel中,但这也不起作用。在

谢谢你的建议!在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值