IP代理池的维护

IP代理池的维护可以分为以下几步:

1.存储模块:负责存储抓取下来的代理。一般比较高效方便的存储方式是使用Redis的Sorted Set,有序集合。

2.获取模块:需要定时在各大代理网站抓取代理。此模块尽量从不同来源获取代理,尽量抓取高匿代理,抓取成功后将可用代理保存到数据库中。

3.检测模块:需要定时检测数据库中的代理,这里需要设置一个检测链接,最好是抓取那个网站就检测那个网站,这样更有针对性。如果要做一个通用型的代理,那可以设置百度等链接来检测。我们还需要标识每一个代理的状态,如设置分数标识,100分代表可用,分数越少代表越不可用。新获取的代理检测一次分数设置为10分,如果代理可用,我们可以将分数立即设置成100分,不可用则减1分,到0分时移除代理。

4.接口模块:需要用API来提供对外服务的接口。比较安全的获取数据库数据的方式是提供一个Web API接口,通过访问接口拿到可用代理。另外,由于可用代理可能有多个,那么我们可以设置一个随机返回某个可用代理的接口,这样就能保证每个可用代理都可以获取到,实现负载均衡。

以下是获取模块从西刺代理获取第一页ip的代码(如有错误请指出)

from faker import Faker  #faker库可以用来获取随机UA,还有其他比如随机地址、随机姓名都可以
import requests
from bs4 import BeautifulSoup
from lxml import etree

dict={}
f = Faker(local='zh-CN')
ua = f.user_agent()
headers = {
    'User-Agent':ua
    }   

def xicidaili():
    start_url = 'http://www.xicidaili.com'
    html = requests.get(start_url,headers= headers)
    soup = BeautifulSoup(html.text,'lxml')
    td = soup.find('table',{'id':'ip_list'})
    trs = td.find_all('tr')[2:22]
    
    for i in trs:
        ip = i.find_all('td')[1].text
        port = i.find_all('td')[2].text
        dict[ip]=port
    print(dict)
    return dict  #最后生成的是字典格式,如:{'114.218.138.145':'8118'}

if __name__ == '__main__':
    xicidaili()

 

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值