关于使用httpclient类库写的爬虫抓取网页时返回403错误



http头的设置很重要,可以骗过某些服务器认为是在和浏览器打交道,而避免被拒绝访问的可能:

若像下面这样,不对头进行任何设置,有些网站在用浏览器可以访问,而用爬虫抓时就会返回403错误:

 CloseableHttpClient httpclient = HttpClients.createDefault();
 HttpGet httpget = new HttpGet(myURL);

 CloseableHttpResponse response = httpclient.execute(httpget);  
 System.out.println(response.getStatusLine().getStatusCode());   //403错误

所以应该对头进行如下的设置:

  httpget.addHeader("Accept", "text/html");
  httpget.addHeader("Accept-Charset", "utf-8");
  httpget.addHeader("Accept-Encoding", "gzip");
  httpget.addHeader("Accept-Language", "en-US,en");
  httpget.addHeader("User-Agent", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.160 Safari/537.22");

header参考:http://kb.cnblogs.com/page/92320/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值