关闭

8.抓取西刺网站(代理ip网站)

1480人阅读 评论(0) 收藏 举报
分类:

需求分析

  • 使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;
  • 目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;

分析网站结构

  • 首页
    • 各分类IP列表连接(国内高匿代理等)
    • IP列表(多页)
    • 具体IP获取(查看页面源码-分析html结构编写scrapy)
      这里写图片描述
    • 注意:
      1. 匿名:若代理服务器是匿名时,当访问国外的网站时候,国外网站是看不到我们的初始ip的,当然还有一些透明的代理,当访问一些网站时候,他们是可以看到我们的初始ip的
      2. 验证时间:代理ip在某一刻可能是可以使用的,但下一秒或下一分钟可能就不可用了,所以在使用前,应该对其进行可用性验证

存储方式分析

  1. 文本文件;
  2. csv文件;
  3. json文件;
  4. jsonlines文件(每一行是一个json字符串);
  5. 数据库
  6. 云存储

代码结构规划

  • 使用scrapy(功能强大-使用简便)
    抓取进阶
    对西刺网站的抓取
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:5741次
    • 积分:154
    • 等级:
    • 排名:千里之外
    • 原创:8篇
    • 转载:8篇
    • 译文:0篇
    • 评论:1条
    文章分类
    最新评论