抓取网页碰到500错误时:User Agent

当你写蜘蛛程序的时候,会发现很多网页会碰到500错误,这个问题我初次碰到,把我好折磨,好不容易解决了,原来如此简单。
当使用
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
url.openStream() 时候发现报403访问拒绝错误,是由于谷歌对java 程序进行限制,缺少Agent。

解决办法:
URL url = new URL("http://www.google.cn/search?hl=zh-CN&newwindow=1&q=北京&start=0&sa=N");
URLConnection con = url.openConnection();
con.setRequestProperty("User-Agent","Mozilla/4.0 (compatible; MSIE 5.0; Windows XP; DigExt)");
InputStream in = con.getInputStream();

private static Document getURLContent() throws MalformedURLException, IOException, UnsupportedEncodingException {
        Document doc = Jsoup.connect("http://www.tudou.com/programs/view/pVploWOtCQM/")
          .data("query", "Java")
          .userAgent("Mozilla")
          .cookie("auth", "token")
          .timeout(3000)
          .post();
        return doc;
    }


在写爬虫的时候经常会遇到有些页面下载下来会有问题,如果你把请求模拟成和浏览器一样,肯定是可以把页面正确获取的,但是其中往往很多参数都没有什么用,真正影响的就几个关键参数。这里特别把自己的经验做一下总结。 
重点需要关注的参数有:
 1. url: 这主要就是URL编码会导致问题,在URL中包含中文的时候可能会出现
 2. user-agent: 大网站通常会对不同的浏览器做优化,所以会有区别
 3. cookie: 有些网站会用到cookie信息,比如有些网站会把session信息记录在cookie中
 4. refer: 有些网站为了防止跨站攻击,会对refer的页面进行检查
 5. accept-charset和accept-encoding: 个别网站会对接收的编码会有特殊处理
 6. sessionID: 这个有时会设在参数中,有些网站会用到这个值,当然还有其他参数可能会有用到。
 
上面都是经验之谈,希望能对大家有所帮助。
原文地址:http://www.zhizhihu.com/html/y2011/3058.html
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明 YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明YOLO高分设计资源源码,详情请查看资源内容中使用说明

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值