python网络爬虫--反爬（7）

最新推荐文章于 2024-01-12 19:02:32 发布

太原浪子

最新推荐文章于 2024-01-12 19:02:32 发布

阅读量135

点赞数

分类专栏： Python网络爬虫文章标签： python cookie

本文链接：https://blog.csdn.net/u010671028/article/details/109129189

版权

Python网络爬虫专栏收录该内容

18 篇文章 3 订阅

订阅专栏

服务器常见反爬虫策略

验证用户身份
- User-Agent
- 应对方案
  - 爬虫在请求头中添加就可以了
验证登陆身份
- Web浏览器中cookie
- 专用终端 token
- 其实就是名字不一样
- 应对方案
  - 获取登陆后的cookie来使用
频率反爬
- 30秒之内搜索一次
- 1分钟之内只能浏览10次
- 应对方案
  - 降低频率，随机休眠
  - 频率统计策略
    - ip
      - 切换ip
      - 代理
        代理池
        买
    - cookie
      - 切换cookie
      - cookie池
        买
        cookie
        账号
    - 根据设备信息自己生成的一个唯一标识
      - 研究生成规则
      - 换User-Agent
      - UA池
        自己写个代码生成
验证码
- 应对策略
  - 简单的图片识别库
  - 打码平台
  - 人工打码

import requests

url = 'http://www.ip111.cn/'
proxies = {
    'https':'171.35.146.114:9999'
}
response = requests.get(url,proxies=proxies,)  # proxies为代理
response.encoding='utf-8'
print(response)
print(response.text)

太原浪子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python网络爬虫--反爬（7）

服务器常见反爬虫策略验证用户身份User-Agent应对方案爬虫在请求头中添加就可以了验证登陆身份Web浏览器中cookie专用终端 token其实就是名字不一样应对方案获取登陆后的cookie来使用频率反爬30秒之内搜索一次1分钟之内只能浏览10次应对方案降低频率，随机休眠频率统计策略ip切换ip代理代理池买cookie切换cookiecookie池买cookie账号根据设备信息自己
复制链接

扫一扫