【error】encoding报错‘utf-8‘ codec can‘t decode byte 0xa4 in position 0: invalid start byte

报错

‘utf-8’ codec can’t decode byte 0xa4 in position 0: invalid start byte

代码

# 引入必要的包
import pandas as pd
# 读取数据保存到data中,路径根据你保存的train.csv位置而有变化  big5 是专门针对台湾繁体的
data = pd.read_csv('D:/pycharm/HungYiLiData/hw1/train.csv', encoding='utf-8')

原因

所读取的csv文件的编码格式没有解读对

解决方法

因为深度学习的文件csv文件里用的台湾繁体字,所以要用big5

data = pd.read_csv('D:/pycharm/HungYiLiData/hw1/train.csv', encoding='big5')
编码特点
UTF-8可变长度字符编码,如果要表示的情况不够时,就会增加字节数。如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的字节数,其余各字节均以10开头。如果只有一个字节则其最高二进制位为0;
UTF-16每个字符编码成2个字节,它不会对字符产生任何影响,也不会涉及到压缩处理,性能非常好,
UTF-32使用4个字节编码成一个字符。
big5台湾繁体字
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值