python写入txt报错_windows系统python3应用pycharm写入txt文件报错问题

我有很多的中文样本,在应用jieba中文分词之后,想将分词的结果写入到txt文件中,报了如下错误:UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 143: illegal multibyte sequence

于是开始了漫长的排查错误之旅:

1、我首先查看了我要写入数据的数据类型,为str

2、查看python3本身的编码方式,python3中包含decode和encode两种方式,其中decode是将其他字符转化为unicode中间类型,即:解码,而encode是将unicode类型转化为其他字符类型,即:编码。

3、于是,开始了第一次尝试:将str类型编码为utf-8类型,写入到文档中,事实证明写入是没有问题的,且写入的文件是byte型数据,如下:b'\xe5\xb0\x8a........首先这个不是我们想要的中文,只是unicode类型对象,.其次,当我试图再次读取这个文件的时候,我发现这个不可以被解码,查阅资料之后,发现是如下原因:

u ='中文'      #指定字符串类型对象

str = u.encode('utf-8')     #以utf-8编码对u进行编码,获得bytes类型对象

str1 = str.decode('utf-8')      #如果以utf-8的编码对str进行解码得到的结果,将无法还原原来的字符串内容

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值