python读取中文字符问题

最新推荐文章于 2023-06-11 02:39:41 发布

yanglt016

最新推荐文章于 2023-06-11 02:39:41 发布

阅读量791

点赞数

分类专栏： python 文章标签： python 中文字符读取

本文链接：https://blog.csdn.net/mengliluohua016/article/details/8712958

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

用python处理中文时，编码问题有点麻烦。

读入一个中文文本data.txt，文本编码问utf-8

path='data.txt'

spath=unicode(path , "utf8")

f=open(spath,'r')

c=f.read()

由于文本编码问utf-8自带有三个字节的BOM头，需要自己去掉

c = c[3:]

在处理中文字符串时，会发现一个汉字占3个字节，假如c=“我是学生”，如何让c[0]=‘我'，c[1]='是'......呢

我们需要把c字符串转换成Unicode编码

c=c.decode ('utf8')

接下去就可以像处理英文字符串一样处理了，不会有乱码了。