爬虫报错和爬下来的数据中文字符乱码
content.decode报错
最近在学习python爬虫时,用requests.get获取的数据进行decode()时发现程序会报错,因为python默认以utf-8进行decode,报错提示utf-8无法decode,因此用decode(“utf-8”)同样会报错。
换成GBK进行decode
在网上查询了一下说指定用GBK进行decode就可以了,因此代码换成了decode(“GBK”),结果是成功爬数据了,但是打开爬下来的html发现里面的内容英文没有问题,但是中文成了一大堆莫名其妙的东西。
问题的解决
最终去chrome里检查了一下Elements,发现charset=UTF-8,就试了下代码写成
content.decode(“UTF-8”),结果爬下来的数据就正常了,中文也没能正确显示了,就是这么的莫名其妙???