字符串编码问题

最新推荐文章于 2024-08-13 18:29:56 发布

weixin_30409849

最新推荐文章于 2024-08-13 18:29:56 发布

阅读量50

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/ixiaole/p/4186347.html

版权

python编码问题

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode('gb2312')，表示将unicode编码的字符串str2转换成gb2312编码。

因此，转码的时候一定要先搞明白，字符串str是什么编码，然后decode成unicode，然后再encode成其他编码代码中字符串的默认编码与代码文件本身的编码一致。
下面例子困扰很久，在做一个爬虫某网站的例子。一般网页编码是utf-8，windows终端是gbk?

if platform.system()=="Windows":
kw = raw_input("请输入关键字（多个关键字请以空格隔开）:".decode("utf-8").encode("gbk"))
kw = kw.decode("gbk").encode("utf-8")

注意：kw为中文的输入关键字的话，是要提交至你要爬的网页，所以要转换成utf-8编码；上面先将已经是gbk编码的kwdecode成Python内部unicode编码，然后再将unicode编码encode成网页utf-8编码的字符串。

字符编码知识梳理

UTF-8就是在互联网上使用最广的一种Unicode的实现方式

UTF-8的编码规则

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的unicode码。因此对于英语字母，UTF-8编码和ASCII码是相同的。
2) 对于n字节的符号（n>1），第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。

综上：解读UTF-8编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

转载于:https://www.cnblogs.com/ixiaole/p/4186347.html

weixin_30409849

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
字符串编码问题

python编码问题字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode('gb2312')，表示将gb2312编码的字...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。