python爬虫 bs4、lxml乱码问题里写自定义目录标题
相信你找了很久才找到这篇文章,相信我这篇文章肯定可以解决你的问题
乱码原因
网页编码与requests默认编码(utf-8)不一致导致的
![网页编码](https://i-blog.csdnimg.cn/blog_migrate/913c7324c575dc08675b6d9fba951009.png)
在爬取某个网页前,先查看该网页的编码,如上图所示
该网页编码为:gbk,如果直接请求创建对象,则会发生乱码。
解决方法
在创建BeautifulSoup对象前,先将请求编码给换了
page = requests.get(url=url_true,headers=headers)
page.encoding = "gbk"