官网地址:https://github.com/CrawlScript/WebCollector
WebCollector的Http请求结果有两种状态:请求成功和请求失败。这两种状态的定义如下:
- 请求成功:服务器成功地返回了请求URL的状态及数据。这里注意,不是状态码200才叫请求成功,一般情况下,301/302/404都可能对应请求成功。例如对于404,服务器正确地告诉了你,当前的URL不存在;对于301/302,服务器正确地告诉了你,当前的URL需要重定向,并且会在Http头中用Location头告诉你重定向的URL。服务器正确地响应了你的请求,我们都认为是请求成功,不需要重新请求(因为重新请求获得的还是同样的信息)。
- 请求失败:非请求成功的状态。如请求超时、因为反爬虫机制而产生的403、因为反爬虫机制产生的302(重定向到验证码页面)等,这些情况需要通过重新请求来获得正确地响应。
WebCollector默认使用OkHttpRequester作为Http请求插件(Requester插件)。可以通过下面的代码查看OkHttpRequester认为请求成功地状态码集合:
public static void main(String[] args) {
OkHttpRequester requester = new OkHttpRequester();
System.out.println(requester.getSuccessCodeSet());
}
执行结果如下