在requests请求发出后接受网页源码遇到解码失败或解码不成功时使用一下方法:
1、采用responsr.content.decode(response.apparent_encoding, ‘ignore’)
2、当遇到ISO-8859-[\d] 此种类型的编码是第一种方法解码会失败
失败原因:
因为ISO-8859-1编码范围使用了单字节内的所有空间,在支持ISO-8859-1的系统中传输和存储其他任何编码的字节流都不会被抛弃。换言之,把其他任何编码的字节流当作ISO-8859-1编码看待都没有问题。而utf8是定长编码,从utf8转化成iso8859-1相当于是高精度转化成低精度,造成精度丢失,所以不可逆。根本原因是因为utf8中文,在iso8859-1没有匹配的位置。
此时采用先转gbk再转utf8的方式进行转码
response.content.decode(‘gbk’, ‘ignore’).encode(‘utf-8’, ‘ignore’).decode(‘utf-8’)