使用Python BeautifulSoup爬取中文网页,编码为乱码或者不可见字符的解决方法
使用python做爬虫的时候,有时候爬下来的中文内容为乱码,该如何解决呢?一个比较简单解决方法,在使用request获取的html内容后,设定编码方式为'utf-8',然后在使用BeautifulSoup解析,如下:
url = 'http://www.****acb.html'
r = requests.get(url, timeout=30)
#需要改编码,否则中文显示为乱码
r.encoding = 'utf-8'
#使用BeautifulSoup库解析
soup = BeautifulSoup(r.text, 'lxml')
尝试一下吧!