目标网站https://www.xicidaili.com
|
一、建立项目
scrapy startproject proxy_example
cd
scrapy genspider XiciSpider www.xicidaili.com
二、修改setting
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'
三、信息提取
这里我们提取ip,代理类型(http or https),端口号
|
四、编写spider
# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
import json
class XiciSpider(scrapy.Spider):
name = 'Xici_proxy'
allowed_domains = ['www.xicidaili.c