WebCollector自带一个Proxys
类,通过Proxys.nextRandom()方法可以随机获取加入的代理。
通过Proxys.add(“ip”,”端口号”);添加代理。
如果本机也参与http请求,可用Proxys.addEmpty()方法将本机加入。
覆盖Crawler的getResponse()方法,即可自定义使用随机代理的http请求:
@Override
public HttpResponse getResponse(CrawlDatum crawlDatum) throws Exception {
HttpRequest request = new HttpRequest(crawlDatum);
request.setProxy(proxys.nextRandom());
return request.getResponse();
}
代码中的proxys并不是一个自带的对象,用户需要在继承Crawler时,定义一个成员变量:
Proxys proxys=new Proxys();
并且需要在构造函数或其他地方,向Proxys