Java爬虫系列三:使用Jsoup解析HTML
上一篇文章使用Jsoup解析通过Http请求获取的页面数据(二)中介绍了使用HttpClient爬取页面,本片文章将讲解咱们怎样使用Jsoup来解析Html
一、Jsoup是什么?
Jsoup是Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据,用Java写爬虫的同行们十之八九用过我。为什么呢?因为我在这个方面功能强大、使用方便。不信的话,可以继续往下看,代码是不会骗人的。
二、使用步骤
1.引依赖
代码如下(示例):
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.12.1</version>
</dependency>