爬虫单个ip代理设置_构建一个给爬虫使用的代理IP池

郭五月

于 2021-01-12 09:35:44 发布

阅读量218

点赞数

文章标签：爬虫单个ip代理设置

本文链接：https://blog.csdn.net/weixin_30341571/article/details/112840637

版权

做网络爬虫时，一般对代理IP的需求量比较大。因为在爬取网站信息的过程中，很多网站做了反爬虫策略，可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。

代理IP的获取，可以从以下几个途径得到：从免费的网站上获取，质量很低，能用的IP极少

购买收费的代理服务，质量高很多

自己搭建代理服务器，稳定，但需要大量的服务器资源。

本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后，再做检查判断IP是否可用，可用的话就存放到MongoDB的中，最后展示到前端的页面上。

获取可用代理

获取代理的核心代码是ProxyManager，它采用RxJava2来实现，主要做了以下几件事：创建ParallelFlowable，针对每一个提供免费代理IP的页面并行地抓取。对于不了解ParallelFlowable的同学，可以看我之前的文章RxJava之ParallelFlowable

Flowable.fromIterable(ProxyPool.proxyMap.keySet())

.parallel()针对每一个页面进行抓取，返回列表

map(new Function>() { @Override public List apply(String s) throws Exception { try { return new ProxyPageCallable(s).call(); } catch (Exception e) {

e.printStackTrace(); } return null; } })对每一个页面获取的代理IP列表进行校验，判断是否可用

flatMap(new Function, Publisher>() { @Override public Publisher apply(List proxies) throws Exception { if (proxies == null) return null; List result = proxies

.stream() .parallel() .filter(new Predicate() { @Override public boolean test(Proxy proxy) { HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType()); return HttpManager.get().checkProxy(httpHost); } }).collect(Collectors.toList()); return Flowable.fromIterable(result); } })依次保存到proxyListsubscribe(new Consumer() { @Override public void accept(Proxy proxy) throws Exception {

log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

proxy.setLastSuccessfulTime(new Date().getTime()); ProxyPool.proxyList.add(proxy); } });

附上完整的流程图

再附上完整的ProxyManager代码：

import com.cv4j.proxy.domain.Proxy;

import com.cv4j.proxy.http.HttpManager;

import com.cv4j.proxy.task.ProxyPageCallable;

import io.reactivex.Flowable;

import io.reactivex.functions.Consumer;

import io.reactivex.functions.Function;

import lombok.extern.slf4j.Slf4j;

import org.apache.http.HttpHost;

import org.reactivestreams.Publisher;

import org.springframework.stereotype.Component;

import java.util.Date;

import java.util.List;

import java.util.function.Predicate;

import java.util.stream.Collectors;

/**

* Created by tony on 2017/10/25.

@Slf4j

@Component

public class ProxyManager {

/**

* 抓取代理，成功的代理存放到ProxyPool中

public void start() {

Flowable.fromIterable(ProxyPool.proxyMap.keySet())

.parallel()

.map(new Function>() {

@Override

public List apply(String s) throws Exception {

try {

return new ProxyPageCallable(s).call();

} catch (Exception e) {

e.printStackTrace();

}

return null;

}

})

.flatMap(new Function, Publisher>() {

@Override

public Publisher apply(List proxies) throws Exception {

if (proxies == null) return null;

List result = proxies

.stream()

.parallel()

.filter(new Predicate() {

@Override

public boolean test(Proxy proxy) {

HttpHost httpHost = new HttpHost(proxy.getIp(), proxy.getPort(), proxy.getType());

return HttpManager.get().checkProxy(httpHost);

}

}).collect(Collectors.toList());

return Flowable.fromIterable(result);

}

})

.sequential()

.subscribe(new Consumer() {

@Override

public void accept(Proxy proxy) throws Exception {

log.debug("Result Proxy = "+proxy.getType()+"://"+proxy.getIp()+":"+proxy.getPort());

proxy.setLastSuccessfulTime(new Date().getTime());

ProxyPool.proxyList.add(proxy);

}

});

}

定时任务

每隔几个小时跑一次定时任务，在抓取完任务之后先删除旧的数据，然后再把新的数据插入到MongoDB的中。

import com.cv4j.proxy.ProxyManager;

import com.cv4j.proxy.ProxyPool;

import com.cv4j.proxy.dao.ProxyDao;

import com.cv4j.proxy.domain.Proxy;

import com.safframework.tony.common.utils.Preconditions;

import org.springframework.beans.factory.annotation.Autowired;

import org.springframework.scheduling.annotation.Scheduled;

import org.springframework.stereotype.Component;

import java.util.concurrent.CopyOnWriteArrayList;

/**

* Created by tony on 2017/11/22.

@Component

public class ScheduleJobs {

@Autowired

ProxyDao proxyDao;

@Autowired

ProxyManager proxyManager;

/**

* 每六个小时跑一次任务

@Scheduled(cron = "0 0 */6 * * ?")

public void cronJob() {

System.out.println("Job Start...");

proxyManager.start();

CopyOnWriteArrayList list = ProxyPool.proxyList;

// 先删除旧的数据

proxyDao.deleteAll();

// 然后再进行插入新的proxy

if (Preconditions.isNotBlank(list)) {

for (Proxy p:list) {

proxyDao.saveProxy(p);

}

System.out.println("Job End...");

}

展示到前端

预览效果如下：

在使用前，还可以再做一次检测，只要双击某个代理IP即可。

在第二次检测时，对于已经失效的IP会被ProxyPool删除。

总结

在做爬虫时，自己维护一个可用的代理IP池是很有必要的事情，当然想要追求更高稳定性的代理IP还是考虑购买比较好。

作者： fengzhizi715

来源：慕课网

本文原创发布于慕课网，转载请注明出处，谢谢合作！

郭五月

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫单个ip代理设置_构建一个给爬虫使用的代理IP池

做网络爬虫时，一般对代理IP的需求量比较大。因为在爬取网站信息的过程中，很多网站做了反爬虫策略，可能会对每个IP做频次控制。这样我们在爬取网站时就需要很多代理IP。代理IP的获取，可以从以下几个途径得到：从免费的网站上获取，质量很低，能用的IP极少购买收费的代理服务，质量高很多自己搭建代理服务器，稳定，但需要大量的服务器资源。本文的代理IP池是通过爬虫事先从多个免费网站上获取代理IP之后，再做检查...
复制链接

扫一扫