一.请求头设置
使用requests库可以很方便的做到:
import requests
headers = {}
res = requests.get(url, headers = headers)
将请求头信息放进headers字典中即可,其中最重要也是最关键的是UA信息,你可以用浏览器的,也可以随机从其他人提供的UA库中抽取,如:UA
其他的参数可以视情况进行删减与更改
二. 关于cookie
首先是与requests库相关的用法,请参考这篇博文:
其次,在使用selenium是可用driver.get_cookie()来获取cookie并对其进行处理,selenium的具体用法请参考:selenium使用笔记
三. 注意抓取的时间间隔,合理设置睡眠:
import time
time.sleep()
四. 表单反制
在许多表单提交的环节,网站为反扒设置反制手段,其中最多的就是隐藏字段值:
即对某些字段值的属性设为用户不可见,仅浏览器可以识别:type = 'hidden'
如果你在提交表单的时候提交了隐藏字段值,将会被视作机器人
解决方法,在填写时对字段属性进行排查,也可以使用selenium的is_displayed()方法来检查某元素是否可见。