在使用爬虫的时候,就会有各种code报错。说是不合法。报错如下:
UnicodeDecodeError: 'gbk' codec can't decode byte 0xd0 in position 15219: illegal multibyte sequence
原来爬虫部分代码:
from lxml import etree
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.13; rv:73.0) Gecko/20100101 Firefox/73.0',
'Referer': 'https://www.ygdy8.net/html/gndy/china/index.html'
}
url = "https://www.ygdy8.net/html/gndy/china/index.html"
response = requests.get(url,headers=headers)
text = response.content.decode('gbk')
然后检查了一下大小写都不是这些问题。
把gbk改成常用的utf-8也不行。
在网上找了方法。要用errors=’ignore‘。
text = response.content.decode(encoding='gbk', errors='ignore')
最后就能顺利得到输出爬虫结果。