Python笔记——（一）文本编码

最新推荐文章于 2021-12-22 21:39:03 发布

a945882813

最新推荐文章于 2021-12-22 21:39:03 发布

阅读量239

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/a945882813/article/details/78570276

版权

1 篇文章 0 订阅

订阅专栏

写在前面：最近开始学习机器学习，听说机器学习核心是数学原理，但是代码是实现原理的途径，有的东西也很繁琐，所以准备写一些学习的笔记，方便查阅。代码大多基于Python 2.7版本。

（一）Python文本编码

Python默认的源代码文件是ASCII编码，如果代码中有中文字符串，则会报错，解决方法是：指定编码。如下：

# coding = UTF-8

可以选择将这句代码放在代码第一行。

收录字符数：GB2312<GBK<GB18030

Unicode只与ASCII兼容，与GB不兼容，字符编码方法Unicode是由UTF规范规定的，常见的UTF规范包括UTF-8、UTF-7，UTF-16。UTF-8是以8位为单位对UCS进行编码（UCS是Unicode的学名的简称，或说缩写）。

unicode转为gb2312、utf-8等，用encode（encoding），encoding表示编码方式（注意单引号的使用）：

# coding = UTF-8
a=u'中国'
b=a.encode('gb2312')

则将a转化为了gb2312编码并赋给了b。

utf-8，GBK转换为Unicode，用unicode（s,encoding）或者s.decode（encoding）：

# coding = UTF-8
a=u'中国'
a_utf8=a.encode('UTF-8')    #此时a为Unicode编码，先将Unicode编码转换为utf-8编码
a_u=a_utf8.decode('utf-8')   #utf-8编码转unicode编码

通过Unicode编码找出对应中文形式，比如一个Unicode编码为 '\u60a8'，查看方法为：

>>> s
u'\u60a8'
>>> print s
您

反之，知道了中文形式，也可得知Unicode编码：

>>> s=u"您好"
>>> s
'u'\u4f60\u497d''

注：url编码和utf-8编码有相似之处，“您好”的url编码为 %E6%82%A8%E5%A5%BD,而utf-8编码就是‘\xe6\x82\xa8\xe5\xa5\xbd’。

关注