htmlunit 抓取
我最近发表了一篇有关使用Java进行屏幕抓取的文章,一些Twitter追随者思考为什么我使用JSoup而不是流行的,无浏览器的Web测试框架HtmlUnit。 我没有特定的原因,所以我决定使用HtmlUnit而不是JSoup重现完全相同的屏幕抓取器应用程序教程。
原始教程只是从我写的GitHub访谈问题文章中提取了一些信息。 它提取了页面标题,作者名称以及页面上所有链接的列表。 本教程将做完全相同的事情,只是有所不同。
HtmlUnit Maven POM条目
使用HtmlUnit的第一步是创建一个基于Maven的项目 ,并将适当的GAV添加到POM文件的依赖项部分。 这是依赖项中包含HtmlUnit GAV的完整Maven POM文件的示例。
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.mcnz.screen.s