用HttpClient实现网络爬虫

上一篇 爬虫之jsoup入门指南中,已经能够非常便捷的实现网络爬虫
但是,在那之前,尝试了一下用HttpClient实现网络爬虫
在此记录一下
HttpClient client = new HttpClient();
GetMethod get = new GetMethod("url");// 传入url,创建一个get请求,方法体内部应该就是初始化http
                                                                                                                                  // 协议吧,具体的没去看源码
int status = client.excuteMethod(get);
if (status = HttpStatus.SC_OK) {
      //请求成功
        String html = get.getResponseBodyAsString();// 此时已经获取到页面的内容
      String[] rowContents = html.split("\n");// 用换行符将页面截断,方便解析
      // 解析的方式可以自己想,由于前段时间第一次接触爬虫,所以处理方式有点二。。。
    for (String rowContent : rowContents) {
              if (rowContent.contains("http://")) {// 当前行包含http链接的话,就打印出来
                              System.out.println(rowContent);
              }
      }
    // 也可以将当前请求的页面存起来,慢慢分析,想一个好的解析办法
      FileWriter write = new FileWriter("../../page.html");
      write.writer(html, 0, html.length());
      writer.flush();
      writer.close();
      return;
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值