详解用Java实现爬虫：HttpClient和Jsoup的介绍及使用(请求方式、请求参数、连接池、解析获取元素)

最新推荐文章于 2024-07-18 16:01:51 发布

Piconjo_Official

最新推荐文章于 2024-07-18 16:01:51 发布

阅读量8.5k

点赞数

分类专栏： Java 文章标签： java 网络

本文链接：https://blog.csdn.net/Piconjo/article/details/105077203

版权

本文详细介绍了如何使用Java的HttpClient和Jsoup实现网络爬虫。内容涵盖HttpClient的基本操作、发起Get和Post请求、连接池设置，以及Jsoup的HTML解析和元素获取方法，为Java爬虫提供了基础教程。

摘要由CSDN通过智能技术生成

一、介绍：何为爬虫

网络爬虫(Web crawler)也叫做网络机器人 可以代替人自动地在互联网中进行数据信息的采集和整理
是一种按照一定的规则 自动地抓取万维网信息的程序或者脚本
可以自动采集所有其能够访问到的页面的内容以获取相关数据

在大数据时代 信息的采集是一项重要的工作
而互联网中的数据是海量的如果单纯靠人力进行信息采集不仅低效繁琐搜集的成本也会提高
爬虫技术就是为了解决如何高效地获取互联网中重要的信息

从功能上讲爬虫分为数据采集处理储存三个部分
爬虫从一个或若干个初始网页的URL开始获取初始网页的URL
在抓取网页的过程中不断从当前页面上抽取新的URL放入队列直到满足系统的一定停止条件最后结束爬取

二、Java爬虫所使用技术

其实爬虫的话在Python中应用的会更加广泛好歹是脚本语言
上学期上课也学到Python爬虫但长久没使用好多都忘了 (笑

扯远了

在Java中若要实现爬虫可用HttpClient和Jsoup 这两个是一对
其它Java的爬虫框架大部分都是底层以此为基础进行封装的例如WebMagic

HttpClient：抓取数据

在浏览器中一直以来都是使用HTTP协议访问互联网的网页
网络爬虫需要编写程序同样使用HTTP协议访问网页
那么可以使用Java的HTTP协议客户端HttpClient这个技术来实现抓取网页数据

引入依赖：

<dependency>
	<groupId>org.apache.httpcomponents</groupId>
	<artifactId>httpclient</artifactId>
	<version>4.5.2</version>
</dependency>

Jsoup：解析数据

在抓取到页面后页面是一大段的HTML代码因此还需要对页面进行解析
可以使用字符串处理工具解析页面也可使用正则表达式但是这些方法都会带来很大的开发成本
因此需要使用一款专门解析HTML页面的技术由此就有了Jsoup

Jsoup是一款Java的HTML解析器可直接解析某个URL地址或HTML文本内容
提供了一套非常省力的API 可通过DOM CSS以及类似于JQuery的操作方法来取出数据和操作数据

主要功能：

1、从一个URL 文件或字符串中解析HTML
2、使用DOM或CSS选择器查找或取出数据
3、操作HTML元素属性文本

引入依赖：

<dependency>
	<groupId>org.jsoup</groupId>
	<artifactId>jsoup</artifactId>
	<version>1.10.2</version>
</dependency>

<!--封装好的工具类(需要用到里面的fileUtils类)-->
<dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.6</version>
 </dependency>

<!--封装好的工具类(需要用到里面的StringUtils类)-->
<dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-lang3</artifactId>
            <version>3.7</version>
</dependency>

★虽然使用Jsoup也可以替代HttpClient来直接发起请求解析数据但往往不会这么用
因为在实际的爬虫开发过程中需要使用到多线程连接池代理等方式
Jsoup对这些的支持并不是很好因此一般仅仅把Jsoup作为Html解析工具使用

三、使用

1、HttpClient

✧、基本操作✧

1、创建HttpClient对象：模拟打开浏览器

CloseableHttpClient httpClient = HttpClients.createDefault();

2、创建HttpGet对象：模拟输入网址发起get请求

HttpGet httpGet=new HttpGet("http://www.baidu.com");

3、使用HttpClient对象发起请求：模拟按下回车发起请求返回响应

CloseableHttpResponse response = httpClient.execute(httpGet);

4、解析响应获取数据

// 判断状态码是否为200
if (response.getStatusLine().getStatusCode()==200)
{
   
	HttpEntity httpEntity = response.getEntity();
	String data=EntityUtils.

最低0.47元/天解锁文章

Piconjo_Official

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录