python 编码问题

最新推荐文章于 2021-09-06 14:11:35 发布

帐前卒

最新推荐文章于 2021-09-06 14:11:35 发布

阅读量1.7k

点赞数

分类专栏：各种脚本包括（python）文章标签： python object exception import server date

本文链接：https://blog.csdn.net/cctt_1/article/details/4453243

版权

各种脚本包括（python）专栏收录该内容

26 篇文章 1 订阅

订阅专栏

对于python的字符串来说。如果是a = 'abc',这就是代表是一个正常的字符串类型为str。如果是a= b'abc'这就代表着一个bytes object。对于bytes object 来说，可以使用decode而非encode;对于正常字符串而言可以使用encode，但是却不能使用decode.如果想将bytes object直接转换为字符串型，可以使用str()或者repr()。但是这里对于已经进行编码的字符串而言，这样做没有任何好处。

今天碰到一个一个问题，使用python取得网页内容的时候：

request = urllib.request.urlopen('http://www.csdn.net') content = request.read()

这里content就是一个bytes object.如果使用正则式title[/d/D]*?title就会失效，抛出exception,说不能将findall(),finditer()等函数用在bytes object上。所以要进行decode()

代码如下：

import urllib.request import re request = urllib.request.urlopen('http://www.csdn.net') content = request.read() reg = re.compile('title[/d/D]*?title') print(reg.findall(content.decode('utf-8')))

如果想搜索中文，正则式中也可以放入中文。

还有一点不好的地方，就在于这个decode()中到底放入什么编解码方式。这取决于那个网页的信息了。一般都会给出。csdn.net给出的就是charset=utf-8.也可以使用下面的代码得到编解码方式：

request = urllib.request.urlopen('http://www.csdn.net') information = request.info() print(information)

可惜的一点是，这里的information是字符串型。传说它是http.client.HTTPMessage的实例并且 继承了email.message.Message。根据文档说是用information.get_charset()就能得到编码是啥类型。可惜我没有试出来，返回值为None.使用csdn的例子可以得到info的信息为：

Server: nginx/0.6.36
Date: Sun, 16 Aug 2009 15:51:04 GMT
Content-Type: text/html; charset=utf-8
Connection: close
Vary: Accept-Encoding
Cache-Control: max-age=604800
Content-Length: 109205
Content-Location: http://www.csdn.net/index.htm
Last-Modified: Sat, 15 Aug 2009 11:11:04 GMT
Accept-Ranges: bytes
ETag: "f4756814991dca1:aa9"
X-Powered-By: ASP.NET
X-UA-Compatible: IE=EmulateIE7
Age: 19
X-Cache: HIT from FECACHE
X-Cache-Lookup: HIT from FECACHE:80
Via: 1.0 cachedev.CSDN.NET (WebCache)

帐前卒

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 编码问题

对于python的字符串来说。如果是a = abc,这就是代表是一个正常的字符串类型为str。如果是a= babc这就代表着一个bytes object。对于bytes object 来说，可以使用decode而非encode;对于正常字符串而言可以使用encode，但是却不能使用decode.如果想将bytes object直接转换为字符串型，可以使用str()或者repr()。但是这里
复制链接

扫一扫

专栏目录