8.抓取西刺网站(代理ip网站)

原创 2016年06月01日 10:34:43

需求分析

  • 使用单一ip抓取网页过程中,经常碰到IP被封的情况;现需要获取一批代理IP进行网页抓取;
  • 目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP进行爬取,以供日后使用;

分析网站结构

  • 首页
    • 各分类IP列表连接(国内高匿代理等)
    • IP列表(多页)
    • 具体IP获取(查看页面源码-分析html结构编写scrapy)
      这里写图片描述
    • 注意:
      1. 匿名:若代理服务器是匿名时,当访问国外的网站时候,国外网站是看不到我们的初始ip的,当然还有一些透明的代理,当访问一些网站时候,他们是可以看到我们的初始ip的
      2. 验证时间:代理ip在某一刻可能是可以使用的,但下一秒或下一分钟可能就不可用了,所以在使用前,应该对其进行可用性验证

存储方式分析

  1. 文本文件;
  2. csv文件;
  3. json文件;
  4. jsonlines文件(每一行是一个json字符串);
  5. 数据库
  6. 云存储

代码结构规划

  • 使用scrapy(功能强大-使用简便)
    抓取进阶
    对西刺网站的抓取
版权声明:本文为博主原创文章,未经博主允许不得转载。

抓取西刺代理IP+验证是否可用+存储mongodb

spider文件的代码: import scrapy import requests #用于测试抓取过来的IP是否可用 class XiciSpider(scrapy.Spider): name ...

python网络爬虫实战——实时抓取西刺免费代理ip

参考网上高手示例程序,利用了多线程技术,Python版本为2.7 #-*-coding:utf8-*- import urllib2 import re import threading impor...

scrapy爬取‘’西刺‘’代理

1、需求分析: 在我们使用单一ip抓取网页的时候,经常会碰到IP被封的情况;那么我们就要获取一批代理IP进行网页抓取;目前找到一个叫”西刺”的网站,可以提供免费代理IP,领导要求对上面的IP...

python3中使用requests和beautifulsoup爬取西刺免费代理IP 入库mongo!

import requests # 使用requests获取源码信息 import pymongo # 入库mongo from bs4 import BeautifulSoup # 使用Bea...

Ubuntu下VSCode的Python运行调试环境的配置

总的来看,VSCode 还是非常不错的编辑器,可以使用扩展实现对大多数语言的支持(语法高亮,自动提示,调试等),并且配置相对而言简单很多。这篇文章也给出了Python虚拟环境下的运行和调试问题的解决方...

C#设置代理IP及刷网站访问量demo

二话不说先上图: 设置代理ip是参考网上的资料,下面是设置代理ip代码:...

python3使用代理ip伪装爬虫访问网站

这是学习小甲鱼的视频写的一毛一样的程序'使用代理ip伪装爬虫'''' 使用代理第一步: proxy_support = urllib.request.ProxyHandler({}) 使用代理第二步:...

如何用HttpWebRequest通过代理IP post 到https的网站?

这个需求来自于我最近练手的一个项目,在项目中我需要将一些自己发表的和收藏整理的网文集中到一个地方存放,如果全部采用手工操作工作量大而且繁琐,因此周公决定利用C#来实现。在很多地方都需要验证用户身份才可...
  • MovingC
  • MovingC
  • 2016年07月27日 17:30
  • 1007
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:8.抓取西刺网站(代理ip网站)
举报原因:
原因补充:

(最多只允许输入30个字)