解决python爬虫乱码问题及.text与.content的区别
文章目录遇到问题解决方法1方法1解决方法2
遇到问题
爬取某网站(不便透露)的帖子过程中,发现数据解析不对,中文乱码,或者只能解析出一半的中文。该网页的编码方式如下:
response = requests.get(test_url)
print(response.encoding)
print(response.apparent_encoding)
输出为:
ISO-8859-1
GB2312
尝试输出print(response.text[:1000]),结果如下
再尝试输出print(res
原创
2021-01-03 14:17:21 ·
1878 阅读 ·
1 评论