@[TOC]使用python多线程获取代理IP(代理IP池,附源码)
代理IP池
都说现在是大数据的时代,大多数的厂商会特别的注重自己家的数据安全问题,但同时,也有着许多的行业是需要大数据来做支撑的,所以爬虫对于个别厂商而言就是一个极为有利的工具,但是对于数据方来说,是十分讨厌爬虫的,因为许多的爬虫工作者会无节制的爬虫公司数据,对于公司的服务器以及服务造成不小的负担,因此各大厂商也做了必要的爬虫限制,其中,封禁IP就是一个。
ip被封会有什么问题?
在爬虫的过程中,如果无节制的请求服务器数据,则有可能会被限制爬取该网站的数据,一些小公司可能会限制你几分钟,几小时,而大厂有可能是直接让你的IP进入小黑屋,以后都无法在爬取任何数据。
解决办法
有小伙伴问了,既然有反爬虫,那是不是也有反反爬虫呢?答案是肯定的!其中最为常用的一种即为“代理IP”,但是现在的代理IP都是需要收费的,甚至是需要用户做实名认证才可以使用,此处,有钱的大哥请略过!
下面为各位爬友提供一个免费的代理IP池,有需要源码的下面提取!
注释:该源码的功能是爬取指定的四个免费代理IP网站并验证是否可用,当需要使用的时候从数据库中调取一个代理ip。
源码!
-- coding: UTF-8 --
import time
import requests
from bs4 import BeautifulSoup
import telnetlib
from pymssql import _mssql
from pymssql import _pymssql
import uuid
import decimal
import threading
class proxies():
_pymssql.Connection
def init(self, ip, port):
self.ip = ip