python3编码问题--文本格式指定错误

在进行文本情感分析时遇到编码问题,错误为UnicodeDecodeError,原因是Python默认使用UTF-8读取文件,但下载的语料文件并非UTF-8格式。尝试修改文件编码未成功。解决方案包括检查Python的输入输出编码和使用Linux命令`file --mime-encoding filename`查看文件编码。
摘要由CSDN通过智能技术生成
背景:想模拟实验一下文本情感分析,下载完语料,因为语料是一个评论一条,所以需要将所有评论整合到一个文件中,在读取每个文件时,出现了编码的问题,如下
问题:UnicodeDecodeError: 'utf8' codec can't decode byte 0xb1 in position 0: invalid start byte
大概错误意思:   unicode解码错误:无法解码成‘utf-8’,在位置0处有非法的开始字节
原始代码:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值