写在前面:最近开始学习机器学习,听说机器学习核心是数学原理,但是代码是实现原理的途径,有的东西也很繁琐,所以准备写一些学习的笔记,方便查阅。代码大多基于Python 2.7版本。
(一)Python文本编码
Python默认的源代码文件是ASCII编码,如果代码中有中文字符串,则会报错,解决方法是:指定编码。如下:
# coding = UTF-8
可以选择将这句代码放在代码第一行。
1.GB系列中文编码
收录字符数:GB2312<GBK<GB18030
2.Unicode和UTF-8
Unicode只与ASCII兼容,与GB不兼容,字符编码方法Unicode是由UTF规范规定的,常见的UTF规范包括UTF-8、UTF-7,UTF-16。UTF-8是以8位为单位对UCS进行编码(UCS是Unicode的学名的简称,或说缩写)。
3.编码转换
unicode转为gb2312、utf-8等,用encode(encoding),encoding表示编码方式(注意单引号的使用):
# coding = UTF-8
a=u'中国'
b=a.encode('gb2312')
则将a转化为了gb2312编码并赋给了b。
utf-8,GBK转换为Unicode,用unicode(s,encoding)或者s.decode(encoding):
# coding = UTF-8
a=u'中国'
a_utf8=a.encode('UTF-8') #此时a为Unicode编码,先将Unicode编码转换为utf-8编码
a_u=a_utf8.decode('utf-8') #utf-8编码转unicode编码
4.小技巧
通过Unicode编码找出对应中文形式,比如一个Unicode编码为 '\u60a8',查看方法为:
>>> s
u'\u60a8'
>>> print s
您
反之,知道了中文形式,也可得知Unicode编码:
>>> s=u"您好"
>>> s
'u'\u4f60\u497d''
注:url编码和utf-8编码有相似之处,“您好”的url编码为 %E6%82%A8%E5%A5%BD,而utf-8编码就是‘\xe6\x82\xa8\xe5\xa5\xbd’。