【学习笔记】python爬虫获取GBK编码网页的转换

最新推荐文章于 2021-01-24 21:34:19 发布

Lixaolin

最新推荐文章于 2021-01-24 21:34:19 发布

阅读量3.5k

点赞数 2

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/Lixaolin/article/details/98873461

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

1、爬取某个GBK编码的网站页面时，发现获取到的信息是这样的

title=ÏÂÔÂÆð´Ó³É¶¼¿ÉÖ±·ÉºÕ¶ûÐÁ»ù È«³Ì½öÐè9Ð¡Ê±
2019Äê08ÔÂ08ÈÕ07:40  À´Ô´£ºËÄ´¨ÈÕ±¨

Ô±êÌâ£ºÏÂÔÂÆð ³É¶¼Ö±·ÉºÕ¶ûÐÁ»ù
	¡¡¡¡8ÔÂ7ÈÕ£¬ËÄ´¨º½¿Õ¹«Ë¾Í¸Â¶£¬½«ÓÚ9ÔÂ16ÈÕÐÂ¿ª³É¶¼Ö±·ÉºÕ¶ûÐÁ»ùº½Ïß¡£½öÐè 9¸öÐ¡Ê±µÄ·ÉÐÐ£¬ÂÃ¿Í¼´¿É´Ó³É¶¼Ö±´ï±±Å·µÄ·ÒÀ¼Ê×¶¼¡£

	¡¡¡¡È¥Äê£¬´¨º½¿ªÍ¨ÁË³É¶¼Ö±·Éµ¤ÂóÊ×¶¼¸ç±¾¹þ¸ùµÄº½Ïß£¬ÎªÔö¼Ó±±Å·º½µã£¬Âú×ã¸ü¶àÂÃ¿Í³öÐÐÐèÇó£¬´¨º½½«¸Ãº½Ïß´òÔìÎª³É¶¼¾ºÕ¶ûÐÁ»ù·É¸ç±¾¹þ¸ù¡£¸Ãº½ÏßÃ¿ÖÜÁ½°à£¬Ã¿ÖÜÒ»¡¢Îå¸÷Ò»°à£¬¿ÕÖÐ·ÉÐÐÊ±¼äÔ¼9Ð¡Ê±¡£¿ªº½Ç°Èý°à£¬´¨º½ÍÆ³öÌØ¼Û»úÆ±£¬³É¶¼·ÉºÕ¶ûÐÁ»ùÍù·µ×îµÍ²»º¬Ë°500ÔªÆð¡££¨¼ÇÕß ÍõÃ¼Áé£©


(Ôð±à£ºÕÂ»ªÎ¬¡¢¸ßºìÏ¼)

查了下资料，得到了解决方法

res = requests.get(url=article_url)
html = res.text.encode('iso-8859-1').decode('gbk')

输出正常

title=下月起从成都可直飞赫尔辛基 全程仅需9小时
2019年08月08日07:40  来源：四川日报

原标题：下月起 成都直飞赫尔辛基
	　　8月7日，四川航空公司透露，将于9月16日新开成都直飞赫尔辛基航线。仅需 9个小时的飞行，旅客即可从成都直达北欧的芬兰首都。

	　　去年，川航开通了成都直飞丹麦首都哥本哈根的航线，为增加北欧航点，满足更多旅客出行需求，川航将该航线打造为成都经赫尔辛基飞哥本哈根。该航线每周两班，每周一、五各一班，空中飞行时间约9小时。开航前三班，川航推出特价机票，成都飞赫尔辛基往返最低不含税500元起。（记者 王眉灵）


(责编：章华维、高红霞)

2、更好的方法：chardet模块识别
规范的网站一般可以在响应头中或者html中找到编码标识，但也有特例，无法获取编码信息，此时可以使用该模块，自定义函数：

    def GetCharset(content):
        return chardet.detect(content)['encoding']

使用方法：参数输入为request.content,返回值就是该网页的编码。

import requests
url = 'http://www.baidu.com'
res = request.get(url)
res.encoding = GetCharset(res.content)
print(res.text)

此时的res.text就会采用指定的编码返回输出。个人感觉挺方便的，不过解析模块解析也要花费一定时间，虽然不长，但还是要时间开销。

Lixaolin

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】python爬虫获取GBK编码网页的转换

爬取某个GBK编码的网站页面时，发现获取到的信息是这样的title=ÏÂÔÂÆð´Ó³É¶¼¿ÉÖ±·ÉºÕ¶ûÐÁ»ù È«³Ì½öÐè9Ð¡Ê±2019Äê08ÔÂ08ÈÕ07:40 À´Ô´£ºËÄ´¨ÈÕ±¨Ô±êÌâ£ºÏÂÔÂÆð ³É¶¼Ö±·ÉºÕ¶ûÐÁ»ù ¡¡¡¡8ÔÂ7ÈÕ£¬ËÄ´¨º½¿Õ¹«Ë¾Í¸Â¶£¬½«ÓÚ9ÔÂ16ÈÕÐÂ¿ª³É¶¼Ö±·Éº...
复制链接

扫一扫