python3 爬取网页报错:'gb2312' codec can't decode byte 0xb5 in position 154969: illegal multibyte sequence

前几天需要在网页上爬取信息,就使用到了requests库爬取网页,其中遇到的比较大的坑则是中文编码。

python版本:3.72

操作系统:windows10

首先需要爬取网页信息。

def parse_url(url, callback):
    """
    根据url爬取页面,若成功则调用回调函数
    :param url: 链接
    :param callback: 回调函数,会在response请求成功后调用,参数为response
    :return:
    """
    response = requests.get(url)

    if response.status_code == 200:
        return callback(response)
    else:
        print("%s:status_code:%s" % (url, response.status_code))

requests.get函数在从网页上爬取成功后返回response对象。在response对象中,一般可以通过以下两种方法获取网页的内容: 

  1. response.text 获取的是文本内容,类型为<class 'str'>
  2. response.content 获取的是二进制数据 类型为<class 'bytes'>

一般情况下是直接通过response.text获取文本内容的,然后使用正则表达式、xpath、beautiful soup、pyquery等解析网页内容来获取信息。不过有时候会出现意外情况,比如这个链接:http://www.most.gov.cn/cxfw/kjjlcx/kjjl2000/200802/t20080214_59081.htm

response.encoding返回的是ISO-8859-1,ISO-8859-1是单字节编码,中文最少是双字节编码;而response.text是根据response.encoding进行编码的,因此在解码过程中会发生解码错误。

那有什么解决办法呢?

方法一:

我一开始的想法是获取网页的head标签内的meta标签中的charset对应的值。不过并不是所有的网页都存在这个属性,因此这个想法行不通。

方法二:

response内有一个属性:response.apparent_encoding,可以通过获取该属性获取requests所认为的编码,然后主动对response.content进行解码,代码如下:

    encoding = response.apparent_encoding
    html = response.content.decode(encoding)

好了,我以为程序没什么问题了,不过程序还是幸运地报错了:

又是解码错误。在网上翻了翻别人的帖子,其中的一个解决方法是在decode函数后加上"ignore"来忽略那些无法解码的文字。

代码更改如下:

    encoding = response.apparent_encoding
    html = response.content.decode(encoding, "ignore")

好了,程序不会报错了。

虽然解决了一个问题,但是又出现了一个新的问题,那就是对于生僻字会发生乱码情况,比如“俤”这个字,在程序中变为了d。。。

究其原因应该是gb2312编码只是包含了常用的中文文字,所以在遇到生僻字会发生编码错误,那么哪个编码是gb2312的超集呢,在网上百度了下为gb18030,那么直接把上面的代码encoding改为"gb18030"。

 

gb18030:是新出的国家标准。这个标准由国家强制执行(也是为了保证中国信息业的地位,以及争取一定的主动权),所以所有在中国大陆销售的操作系统必须支持gb18030。现在的Gb18030不仅包含了简体和繁体汉字,支持中国少数名族文字,还包含了日韩等国的象形文字。优点:兼容性好,与以前的国标码都兼容。缺点:对英文字母需要2个字节的编码(引用自百度百科)

 

运行成功。

 

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值