爬取代理ip,并做有效性检测

本文介绍了如何通过爬虫获取代理IP,进行有效性检测,将有效IP存储到MySQL数据库中。同时,利用服务器上的crontab实现定时调度任务,确保任务定期执行。代码环境为Python3.6,涉及Scrapy、Requests等库,项目源码已上传至GitHub。
摘要由CSDN通过智能技术生成

爬虫

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# author:Echean
# datetime:2018/8/8 21:22
# software: PyCharm
import json
import sys
import time

import requests
import re
import random
from scrapy import Selector

from mysql.mysqldb import MyPymysqlPool


class GetIP(object):
    IPS = []
    url_list = ['http://www.xicidaili.com/nn/',
                'http://www.xicidaili.com/nn/2',
                'http://www.xicidaili.com/nn/3', ]
    UA_list = [
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0",
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36"
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36"
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0"
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER"
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36"
    ]

    def _get_random_header(self):
        headers = {
            'User-Agent': random.choice(self.UA_list),
            'Upgrade-Insecure-Requests': '1',
        }
        return headers

    def _get_ip_list(self):
        for url in self.url_list:
            res = requests.get(url=url, headers=self._get_random_header())
            sel = Selector(response=res)
            ip_list = sel.css('#ip_list tr')
        
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值