Python笔记——(一)文本编码

写在前面:最近开始学习机器学习,听说机器学习核心是数学原理,但是代码是实现原理的途径,有的东西也很繁琐,所以准备写一些学习的笔记,方便查阅。代码大多基于Python 2.7版本。

(一)Python文本编码

Python默认的源代码文件是ASCII编码,如果代码中有中文字符串,则会报错,解决方法是:指定编码。如下:

# coding = UTF-8

可以选择将这句代码放在代码第一行。

1.GB系列中文编码

收录字符数:GB2312<GBK<GB18030

2.Unicode和UTF-8

Unicode只与ASCII兼容,与GB不兼容,字符编码方法Unicode是由UTF规范规定的,常见的UTF规范包括UTF-8、UTF-7,UTF-16。UTF-8是以8位为单位对UCS进行编码(UCS是Unicode的学名的简称,或说缩写)。

3.编码转换

unicode转为gb2312、utf-8等,用encode(encoding),encoding表示编码方式(注意单引号的使用)

# coding = UTF-8
a=u'中国'
b=a.encode('gb2312')

则将a转化为了gb2312编码并赋给了b。

utf-8,GBK转换为Unicode,用unicode(s,encoding)或者s.decode(encoding):

# coding = UTF-8
a=u'中国'
a_utf8=a.encode('UTF-8')    #此时a为Unicode编码,先将Unicode编码转换为utf-8编码
a_u=a_utf8.decode('utf-8')   #utf-8编码转unicode编码

4.小技巧

通过Unicode编码找出对应中文形式,比如一个Unicode编码为 '\u60a8',查看方法为:

>>> s
u'\u60a8'
>>> print s
您

反之,知道了中文形式,也可得知Unicode编码:

>>> s=u"您好"
>>> s
'u'\u4f60\u497d''

注:url编码和utf-8编码有相似之处,“您好”的url编码为 %E6%82%A8%E5%A5%BD,而utf-8编码就是‘\xe6\x82\xa8\xe5\xa5\xbd’。



  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值