WebCollector从2.72版本开始,默认使用OkHttpRequester作为Http请求插件。继承OkHttpRequester可以轻松地定制各种Http请求功能,如设置User-Agent、Cookie等Http请求头,设置请求方法(GET/POST)和表单数据等。
官网地址:https://github.com/CrawlScript/WebCollector
OkHttpRequester是一个Requester插件(Http请求插件),这里补充一下,Requester插件的源码如下:
public interface Requester{
Page getResponse(String url) throws Exception;
Page getResponse(CrawlDatum datum) throws Exception;
}
其中第一个方法Page getResponse(String url)是第二个方法Page getResponse(CrawlDatum datum)的一个快捷方式。一般情况下,第一个方法的实现方式如下,只是为了给用户一个能输入url字符串来请求响应的接口。
@Override
public Page getResponse(String url) throws Exception {
return getResponse(new CrawlDatum(url));
}
OkHttpRequester已经实现了