服务器常见反爬虫策略
- 验证用户身份
- User-Agent
- 应对方案
- 爬虫在请求头中添加就可以了
- 验证登陆身份
- Web浏览器中cookie
- 专用终端 token
- 其实就是名字不一样
- 应对方案
- 获取登陆后的cookie来使用
- 频率反爬
- 30秒之内搜索一次
- 1分钟之内只能浏览10次
- 应对方案
- 降低频率,随机休眠
- 频率统计策略
- ip
- 切换ip
- 代理
- 代理池
- 买
- 代理池
- cookie
- 切换cookie
- cookie池
- 买
- cookie
- 账号
- 买
- 根据设备信息自己生成的一个唯一标识
- 研究生成规则
- 换User-Agent
- UA池
- 自己写个代码生成
- ip
- 验证码
- 应对策略
- 简单的图片识别库
- 打码平台
- 人工打码
- 应对策略
import requests
url = 'http://www.ip111.cn/'
proxies = {
'https':'171.35.146.114:9999'
}
response = requests.get(url,proxies=proxies,) # proxies为代理
response.encoding='utf-8'
print(response)
print(response.text)