在写爬虫的时候发现requests(url)之后得到的responses.text,这里的中文都是" ´óÊý¾ÝÍÚ¾ò¹¤³ÌÊ£¨Ò½Áƽ¡¿µ·½Ïò£©"这种乱码,懵了,之前没见过百度也没百度到,最后看到网上的一个方法,说把responses转化一下转成gbk编码的,然后试了一下中文就出来了,不知道有没有小伙伴跟我遇到同样的问题。
主要原因在于解码时候用的是utf-8,但是这个网页的编码是gbk的,刚开始没注意到, 因为在编码的时候对于汉字gbk一个字符占两个字节,而utf-8一个汉字字符占三个字节,这样一来如果编码与解码的方式不同自然显示出来的东西就不同了
response = requests.get(url) response.encoding = 'gbk' html = response.text