之前有个朋友问我他爬取的html源码里面全是这些Šæ¬¡æµè§文字,无法进行文字处理。
其实这指定一下编码就能正确输出中文了
response = request.get(url)
第一种:
response.encoding = ‘utf8’
print(response.text)
第二种
print(response.text.encode(response.encoding).decode(‘utf-8’))
这样就能正确打印出中文来了
如此简单!
关于爬取网站html源码出现Šæ¬¡æµè§的解决办法
最新推荐文章于 2024-08-08 17:11:41 发布