python3 爬取网页报错:'gb2312' codec can't decode byte 0xb5 in position 154969: illegal multibyte sequence
方法一:
我一开始的想法是获取网页的head标签内的meta标签中的charset对应的值。不过并不是所有的网页都存在这个属性,因此这个想法行不通。
方法二:
response内有一个属性:response.apparent_encoding,可以通过获取该属性获取requests所认为的编码,然后主动对response.content进行解码,代码如下:
encoding = response.apparent_encoding
html = response.content.decode(encoding)
又是解码错误。在网上翻了翻别人的帖子,其中的一个解决方法是在decode函数后加上"ignore"来忽略那些无法解码的文字。
代码更改如下:
encoding = response.apparent_encoding
html = response.content.decode(encoding, "ignore")
好了,程序不会报错了。
虽然解决了一个问题,但是又出现了一个新的问题,那就是对于生僻字会发生乱码情况,比如“俤”这个字,在程序中变为了d。。。
究其原因应该是gb2312编码只是包含了常用的中文文字,所以在遇到生僻字会发生编码错误,那么哪个编码是gb2312的超集呢,在网上百度了下为gb18030,那么直接把上面的代码encoding改为"gb18030"。
gb18030:是新出的国家标准。这个标准由国家强制执行(也是为了保证中国信息业的地位,以及争取一定的主动权),所以所有在中国大陆销售的操作系统必须支持gb18030。现在的Gb18030不仅包含了简体和繁体汉字,支持中国少数名族文字,还包含了日韩等国的象形文字。优点:兼容性好,与以前的国标码都兼容。缺点:对英文字母需要2个字节的编码(引用自百度百科)