Python常见反爬虫机制解决方案
2、时间设置
适用情况:限制频率情况。
Requests,Urllib2都可以使用time库的sleep()函数:
import time
time.sleep(1)
3、伪装成浏览器,或者反“反盗链”
有些网站会检查你是不是真的浏览器访问,还是机器自动访问的。这种情况,加上User-Agent,表明你是浏览器访问即可。有时还
会检查是否带Referer信息还会检查你的Referer是否合法,一般再加上Referer。
headers = {"User-Agent":"XXXXX"} # 伪装成浏览器访问,适用于拒绝爬虫的网站
headers = {"Referer":"XXXXX"}
headers = {"User-Agent":"XXXXX", "Referer":"XXXXX"}
Requests:
response = requests.get(url=url, headers=headers)
Urllib2:
import urllib, urllib2
req = urllib2.Request(url=url, headers=headers)
response = urllib2.urlopen(req)
Python常见反爬虫机制解决方案相关教程