python处理汉字出现的ordinal not in range(128)问题

在nlp中我们总会在各种场景下处理汉字,尤其在预处理阶段。
一般常见的报错为“…ordinal not in range(128)”

那么常用解决方法的是以下两个:

1. 在代码开头

#-- coding:utf-8 --

2. 使用sys

import sys
reload(sys)
sys.setdefaultencoding(‘utf-8’)

以上两个步骤是比较常规的操作,也能解决99%场景问题,但是总有一些小问题不容易解决,比如utf-8和汉字直接拼接,将汉字以“汉字的形式”写入、以汉字为key获取字典中的value等问题(问题出现的规律还未整理出来)。不过出现一些奇怪的编码问题可以尝试以下两种:

3.使用decode、encode

text.decode(‘utf-8’)

4.使用json

json.dumps()

欢迎有更系统的解决方案或者解释问题观点的同学们指点~

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值