爬虫入门第1课:代理池概述及开发环境

1. 什么是代理池

代理池就是有代理IP组成的池子, 它可以提供多个稳定可用的代理IP

2. 为什么要实现代理池

  1. 我们在做爬虫的时候, 最常见一种反爬手段就是 ip反爬; 也就是当同一个IP访问这个网站次数过多, 频率过高, 就会限制这个IP访问. 怎么解决这个问题呢? 就是需要经常换IP; 使用代理IP是其中一个比较常用的方案.
  2. 免费代理都是非常不稳定的, 有10%是可用就很不错了.
  3. 一些收费代理稳定性也不好, 便宜一点只有30%~50%左右是可用.
    注: 如果代理IP提供商, 提供接口很好, 稳定性也很高, 就无需使用代理池

3. 代理池开发环境

  • 平台: Mac,可以运行Window和Linux上
  • 开发语言: Python3
  • 开发工具: PyCharm
  • 使用到的主要技术:
    • requests: 发送请求, 获取页面数据
    • lxml: 使用XPATH从页面提取我们想要的数据
    • pymongo: 把提取到代理IP存储到MongoDB数据库中和从MongoDB数据库中读取代理IP,给爬虫使用.
    • Flask: 用于提供WEB服务
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值