今早发现爬虫在获取数据时,出现了 HTTPError: Forbidden。
项目背景:
Python3 + urlib定时从指定网站获取数据,项目进入测试大概有一个月左右,今天上午发现数据同步中断,紧急查看日志,发现报错, HTTPError: Forbidden。初步定为是在获取数据时,被网站给禁止了,因此解决方案为配置header,代码如下
def get_opener():
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36',
# 'X-Forwarded-For': '171.