Requests爬取网页编码问题

最新推荐文章于 2021-12-19 17:29:43 发布

天际层云

最新推荐文章于 2021-12-19 17:29:43 发布

阅读量2k

点赞数 3

分类专栏：爬虫文章标签：爬虫 pythonrequest

本文链接：https://blog.csdn.net/weixin_37686372/article/details/79231846

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Requests爬取网页的编码问题

import requests
from requests import exceptions
    def getHtml():
        try:
            r=requests.get('http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html')
            r.raise_for_status()
            r.encoding=r.apparent_encoding
            return r.text
        except requests.RequestException as e:
            return ''

其中 r.encoding 根据响应头中的 charset 判断网站编码，如果没有设置则默认返回 iso-8859-1 编码，而r.apparent_encoding
则通过网页内容来判断其编码。令r.encoding=r.apparent_encoding就不会出现乱码问题。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天际层云

关注关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Requests爬取网页编码问题

Requests爬取网页的编码问题import requestsfrom requests import exceptions def getHtml(): try: r=requests.get('http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html') r.
复制链接

扫一扫