最近写了个小爬虫,返回页面是完全乱码的,连Html结构都是乱码,用chardet的detect方法判断了下response.content,还是看不出返回的页面是什么编码,经过多方查阅,get到一个新的技能(之前从没用过这个库)。。
import urllib3
import requests
http = urllib3.PoolManager()
r = http.request('GET', url)
print(chardet.detect(r.data))
print((r.data).decode('gb2312', 'ignore'))
return (r.data).decode('gb2312', 'ignore')
Note:
我用的是Python3,导包不成功的话可能还需你手动下载urllib3库