报错
‘utf-8’ codec can’t decode byte 0xa4 in position 0: invalid start byte
代码
# 引入必要的包
import pandas as pd
# 读取数据保存到data中,路径根据你保存的train.csv位置而有变化 big5 是专门针对台湾繁体的
data = pd.read_csv('D:/pycharm/HungYiLiData/hw1/train.csv', encoding='utf-8')
原因
所读取的csv文件的编码格式没有解读对
解决方法
因为深度学习的文件csv文件里用的台湾繁体字,所以要用big5
data = pd.read_csv('D:/pycharm/HungYiLiData/hw1/train.csv', encoding='big5')
编码 | 特点 |
---|---|
UTF-8 | 可变长度字符编码,如果要表示的情况不够时,就会增加字节数。如果是多字节,其第一个字节从最高位开始,连续的二进制位值为1的个数决定了其编码的字节数,其余各字节均以10开头。如果只有一个字节则其最高二进制位为0; |
UTF-16 | 每个字符编码成2个字节,它不会对字符产生任何影响,也不会涉及到压缩处理,性能非常好, |
UTF-32 | 使用4个字节编码成一个字符。 |
big5 | 台湾繁体字 |