编码常见问题及解决方式

最新推荐文章于 2023-06-25 16:56:33 发布

Tiffany_Li2015

最新推荐文章于 2023-06-25 16:56:33 发布

阅读量1.3k

点赞数

分类专栏：科研工具及FAQ 文章标签：编码 ascii

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Tiffany_Li2015/article/details/49358415

版权

科研工具及FAQ 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1、问题：UnicodeEncodeError: 'ascii' codec can't encode characters in position
方法：字符集的问题，在文件前加两句话

reload(sys)

sys.setdefaultencoding( "utf-8" )

2、中文常见编码问题:

python中正则表达式string = re.sub(ur"[^\u4e00-\u9fa5]", " ",string)，前面的u不能去掉(python3解释器可能不受影响)

encode就是把参数编码转换成二进制编码，如：word=word.encode("utf8")，就是把utf8转成了二进制编码。

unicode(sen, "utf8")就是把sen转成utf8编码

decode就是按照参数转码成unicode如message.decode('utf8')，所以若参数是utf-8,则功能与上句话相同。

有个讲得比较清楚的网站

3 、'utf8' codec can't decode bytes in position 0-1: invalid continuation byte

解决方法：1、确实是输入编码和读的编码不一致；2、重启试试； 3文件里面还有非法字符.decode("utf-8","ignore")

补充：

1/《python自然语言理解》这本书上有讲decode与encode之间的关系，大概意思就是各种各样的编码格式（“GBK”，“UTF-8”）——>(decode("GBK"))成unicode——>(encode("GBK"))成各种各样的编码格式。

2/codecs指定编码打开就已经转成unicode了，与line=line.decode("utf-8")的效果一样

3/try语句的使用。有时会遇到乱码问题，这时应该用try语句。try: word=word.decode("utf-8") except:continue

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
编码常见问题及解决方式

1、问题：UnicodeEncodeError: 'ascii' codec can't encode characters in position 方法：字符集的问题，在文件前加两句话reload(sys) sys.setdefaultencoding( "utf-8" )
复制链接

扫一扫

专栏目录

Tiffany_Li2015 CSDN认证博客专家 CSDN认证企业博客

码龄9年

32: 原创

26万+: 周排名

33万+: 总排名

9万+: 访问

: 等级

1263: 积分

11: 粉丝

13: 获赞

5: 评论

36: 收藏

私信

关注

热门文章

分类专栏

最新评论

Protege一种本体构建编辑器
杨文欣欣: 博主，可以分享一下安装包吗？官网下不来。。。
使用HanLP配置文件经常消失
yu2724079865: 说的好废话啊，为啥会消失呢
几个做科研的好习惯建议
Dr. Meng: 内容不错，谢谢。
PyTagcloud工具使用——显示中文词云
sinat_33361843: 小哥，我用你的方法会一直下面这个错误，如果有看到能否解答一下 “RuntimeError: Can't seek in stream” 核心代码如下： YOUR_TEXT = u"我国正处于并将长期处于社会主义初级阶段" tags = make_tags(get_tag_counts(YOUR_TEXT), maxsize=80) create_tag_image(tags, 'C:/Users/hoocok/Desktop/cloud_large.png',size=(900, 600), fontname='simhei')
Sklearn TFIDF中文计算问题以及解决方法
mmc2015: 很赞，解决了大问题

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。