WebCollector 2.72处理301/302重定向、404 Not Found等Http状态

官网地址:https://github.com/CrawlScript/WebCollector

WebCollector的Http请求结果有两种状态:请求成功和请求失败。这两种状态的定义如下:

  • 请求成功:服务器成功地返回了请求URL的状态及数据。这里注意,不是状态码200才叫请求成功,一般情况下,301/302/404都可能对应请求成功。例如对于404,服务器正确地告诉了你,当前的URL不存在;对于301/302,服务器正确地告诉了你,当前的URL需要重定向,并且会在Http头中用Location头告诉你重定向的URL。服务器正确地响应了你的请求,我们都认为是请求成功,不需要重新请求(因为重新请求获得的还是同样的信息)。
  • 请求失败:非请求成功的状态。如请求超时、因为反爬虫机制而产生的403、因为反爬虫机制产生的302(重定向到验证码页面)等,这些情况需要通过重新请求来获得正确地响应。

WebCollector默认使用OkHttpRequester作为Http请求插件(Requester插件)。可以通过下面的代码查看OkHttpRequester认为请求成功地状态码集合:

public static void main(String[] args) {
    OkHttpRequester requester = new OkHttpRequester();
    System.out.println(requester.getSuccessCodeSet());
}

执行结果如下

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值