java网络爬虫实验报告,Java网络爬虫实操(8)

大家好,本篇文章介绍一下NetDiscovery爬虫框架里的downloader对象

1) 前言

面向对象设计仍然是目前编程的核心思想,从下面截图可以了解爬虫框架的主要对象:96b7e944834958085d34fd1dd53d4c67.png

程序在本地组织好一个request后,交给downloader从网络上抓取数据到本地,然后由parser处理本地的这些数据,最终生成可用的信息。

2) downloader介绍

downloader我们也称为下载器,主要功能就是访问网络并成功抓回我们要的数据:例如html网页、json/xml数据、二进制流(图片、office文档等)

目前NetDiscovery支持的downloader实现有:3ca696983d55f41084020cbd83948cb2.png

面向接口编程是这个框架的重要设计思想之一。

以下介绍部分downloader代码,这些代码的共同点是实现了Downloader接口。

作为程序开发者,你也可以实现接口com.cv4j.netdiscovery.core.downloader.Downloader,创建自己的下载器类。

UrlConnectionDownloader

这个用的是jdk自带的包,java.io、java.net

//1、构建一个URL对象

url = new URL(request.getUrl());

//2、获取一个HttpURLConnection对象

conn = url.openConnection();

//3、一堆设置

conn .setDoOutput(true);

conn .setDoInput(true);

conn .setRequestMethod("POST");

......

//4、访问网络服务

conn.connect();

//5、执行成功的话,获取结果

conn.getResponseCode();

conn.getInputStream();

复制代码HttpClientDownloader

这个是用开源包apache httpclient实现的,代码就更加简洁优雅了。

//1、获取一个HttpManager对象(框架自己封装的)

HttpManager httpManager = HttpManager.get();

//2、然后把request扔进去,等结果就可以了.request也是框架封装的

httpManager.getResponse(request)

//3、等来结果后,进行处理

@Override

public Response apply(CloseableHttpResponse closeableHttpResponse) throws Exception {

String charset = null;

if (Preconditions.isNotBlank(request.getCharset())) {

charset = request.getCharset(); //针对一些还是GB2312编码的网页

} else {

charset = "UTF-8";

}

String html = EntityUtils.toString(closeableHttpResponse.getEntity(), charset);

Response response = new Response();

response.setContent(html.getBytes());

response.setStatusCode(closeableHttpResponse.getStatusLine().getStatusCode());

if (closeableHttpResponse.containsHeader("Content-Type")) {

response.setContentType(closeableHttpResponse.getFirstHeader("Content-Type").getValue());

}

return response;

}

复制代码VertxDownloader等类大家有需要都可以去了解一下。

3) 总结

总之,爬虫程序本质上是一个网络程序,网络程序的核心模块离不开对网络数据的处理。建议学习爬虫的伙伴们,要看源代码的话,可以先从框架中的downloader相关代码开始了解。相信一定会有收获的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值