【error】encoding报错‘utf-8‘ codec can‘t decode byte 0xa4 in position 0: invalid start byte

繁花郁晴

已于 2022-08-25 15:08:41 修改

阅读量483

点赞数

分类专栏： error 文章标签： python 开发语言

于 2022-08-25 15:07:59 首次发布

本文链接：https://blog.csdn.net/qq_43520842/article/details/126525260

版权

error 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

报错

‘utf-8’ codec can’t decode byte 0xa4 in position 0: invalid start byte

代码

# 引入必要的包
import pandas as pd
# 读取数据保存到data中，路径根据你保存的train.csv位置而有变化  big5 是专门针对台湾繁体的
data = pd.read_csv('D:/pycharm/HungYiLiData/hw1/train.csv', encoding='utf-8')

原因

所读取的csv文件的编码格式没有解读对

解决方法

因为深度学习的文件csv文件里用的台湾繁体字，所以要用big5

data = pd.read_csv('D:/pycharm/HungYiLiData/hw1/train.csv', encoding='big5')

编码	特点
UTF-8	可变长度字符编码，如果要表示的情况不够时，就会增加字节数。如果是多字节，其第一个字节从最高位开始，连续的二进制位值为1的个数决定了其编码的字节数，其余各字节均以10开头。如果只有一个字节则其最高二进制位为0；
UTF-16	每个字符编码成2个字节，它不会对字符产生任何影响，也不会涉及到压缩处理，性能非常好，
UTF-32	使用4个字节编码成一个字符。
big5	台湾繁体字