WebCollector多代理切换机制

最新推荐文章于 2023-09-27 19:30:00 发布

AJAXHu

最新推荐文章于 2023-09-27 19:30:00 发布

阅读量6.3k

点赞数 1

分类专栏： webcollector 文章标签： webcollector 代理多代理反爬虫 JAVA爬虫

本文链接：https://blog.csdn.net/AJAXHu/article/details/45291991

版权

使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。

本教程利用WebCollector爬取大众点评，展示WebCollector的多代理切换机制，相关内容都在代码注释中。

教程中仅仅将网页保存在download文件夹中，如果需要抽取，请参考WebCollector其他教程。

import cn.edu.hfut.dmic.webcollector.crawler.BreadthCrawler;
import cn.edu.hfut.dmic.webcollector.model.Links;
import cn.edu.hfut.dmic.webcollector.model.Page;
import cn.edu.hfut.dmic.webcollector.net.HttpRequest;
import cn.edu.hfut.dmic.webcollector.net.HttpRequesterImpl;
import cn.edu.hfut.dmic.webcollector.net.RandomProxyGenerator;
import cn.edu.hfut.dmic.webcollector.util.Config;
import cn.edu.hfut.dmic.webcollector.util.FileUtils;
import java.io.IOException;
import java.net.InetSocketAddress;
import java.net.Proxy;
import java.util.concurrent.atomic.AtomicInteger;
import java.util.logging.Level;
import java.util.logging.Logger;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
 * 利用多代理爬取大众点评

最低0.47元/天解锁文章

AJAXHu

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
3
评论
WebCollector多代理切换机制

使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。本教程利用WebCollector爬取大众点评，展示WebCollector的多代理切换机制，相关内容都在代码注释中。教程中仅仅将网页保存在download文件夹中，如果需要抽取，请参考WebCollector其他教程。
复制链接

扫一扫

专栏目录