Java爬虫学习:使用HtmlUnit获取html页面

最新推荐文章于 2022-06-23 15:26:28 发布

johnson_moon

最新推荐文章于 2022-06-23 15:26:28 发布

阅读量1w

点赞数 3

分类专栏：网络技术 Java 爬虫文章标签： java 爬虫 HtmlUnit html

本文链接：https://blog.csdn.net/johnson_moon/article/details/78457543

版权

本文介绍了如何使用Java爬虫库HtmlUnit获取动态HTML页面。相较于HttpClient，HtmlUnit能执行JS，模拟浏览器行为，适用于处理需要执行JS的动态网页。文章详细阐述了HtmlUnit的使用步骤，包括新建Maven工程、编写测试用例以及创建工具类，以实现实现爬取网页内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用HtmlUnit获取html页面

HtmlUnit简介

官网介绍

HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documents and provides an API that allows you to invoke pages, fill out forms, click links, etc... just like you do in your "normal" browser.

It has fairly good JavaScript support (which is constantly improving) and is able to work even with quite complex AJAX libraries, simulating Chrome, Firefox or Internet Explorer depending on the configuration used.

It is typically used for testing purposes or to retrieve information from web sites.

HtmlUnit is not a generic unit testing framework. It is specifically a way to simulate a browser for testing purposes and is intended to be used within another testing framework such as JUnit or TestNG. Refer to the document "Getting Started with HtmlUnit" for an introduction.

HtmlUnit is used as the underlying "browser" by different Open Source tools like Canoo WebTest, JWebUnit, WebDriver, JSFUnit, WETATOR, Celerity, Spring MVC Test HtmlUnit, ...

HtmlUnit was originally written by Mike Bowler of Gargoyle Software and is released under the Apache 2 license. Since then, it has received many contributions from other developers, and would not be where it is today without their assistance.

中文翻译


HtmlUnit是一个无界面浏览器Java程序。它为HTML文档建模，提供了调用页面、填写表单、单击链接等操作的API。就跟你在浏览器里做的操作一样。

HtmlUnit不错的JavaScript支持(不断改进)，甚至可以使用相当复杂的AJAX库，根据配置的不同模拟Chrome、Firefox或Internet Explorer等浏览器。

HtmlUnit通常用于测试或从web站点检索信息。

HtmlUnit使用场景

httpClient的局限性

对于使用java实现的网页爬虫程序，我们一般可以使用apache的HttpClient组件进行HTML页面信息的获取，HttpClient实现的http请求返回的响应一般是纯文本的document页面，即最原始的html页面。

对于一个静态的html页面来说，使用httpClient足够将我们所需要的信息爬取出来了。但是对于现在越来越多的动态网页来说，更多的数据是通过异步JS代码获取并渲染到的，最开始的html页面是不包含这部分数据的。

这里写图片描述

上图我们所见到的网页，在最初的document加载完成之后，并不会看到红框中的数据列表。浏览器通过执行异步JS请求，将获取到的动态数据，渲染到最初的document页面中，才最终变成了我们看到的网页。而对于这部分需要执行JS代码获取的数据，httpClient就显得无能为力了。虽然我们可以通过研究拿到JS执行的请求路径再用java代码获取我们需要的这部分数据，且不说我们能不能够从JS脚本中分析到这个请求路径和请求参数，光是分析这部分源码的代价就已经很高了。

HtmlUnit来解决

通过上面的介绍，我们了解了现在很大一部分动态网页，展现的数据都是通过异步JS请求获取，然后再通过JS对页面进行渲染得到的。那我们是不是可以进行这么一个假设，假设我们的爬虫程序模拟了一个浏览器，在获取html页面之后，像浏览器一样执行异步JS代码，等到JS将html页面渲染完成之后，就可以愉快的获取页面上的节点信息了。那么有没有这样的java程序呢？

答案是有的。

HtmlUnit就是这么一个程序库，用来做出了界面展示意外所有的异步工作。由于没有了展示这一块耗时的工作，HtmlUnit加载完成一个完整的网页要比实际的浏览器块多了。并且根据不同配置，HtmlUnit可以模拟市面上常用的浏览器如Chrome、Firefox、IE浏览器等。

通过HtmlUnit库，加载一个完整的Html页面（图片视频除外），然后就可以将其转换成我们常用的字串格式，用其他工具如Jsoup来获取其中的元素了。当然也可以直接在HtmlUnit提供的对象中获取网页元素，甚至是操作如按钮、表单等控件。除了不能像可见浏览器一样用鼠标键盘浏览网页之外，我们可以用HtmlUnit来模拟操作其他的一切操作，像登录网站，撰写博客等等都是可以完成的。当然网页内容爬取是最简单的一个应用了。

HtmlUnit使用方法

1.新建maven工程,添加HtmlUnit依赖:

<dependencies>
    <dependency>
        <groupId>net.sourceforge.htmlunit</groupId>
        <artifactId>htmlunit</artifactId>
        <version>2.27</version>
    </dependency>
</dependen

最低0.47元/天解锁文章