jsoup 1.6.2发布最棒的Java HTML解析器

最新推荐文章于 2023-05-05 19:03:52 发布

姝然彩神

最新推荐文章于 2023-05-05 19:03:52 发布

阅读量534

点赞数

分类专栏： Android

Android 专栏收录该内容

20 篇文章 0 订阅

订阅专栏

jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup 1.6.2 发布了，改版包含很多的 bug 修复，松散的 XML 解析模式，功能调整以及内存的改进。

详情请看官方发行说明：

http://jsoup.org/news/release-1.6.2

jsoup的主要功能如下：

从一个URL，文件或字符串中解析HTML；
使用DOM或CSS选择器来查找、取出数据；
可操作HTML元素、属性、文本；

jsoup是基于MIT协议发布的，可放心使用于商业项目。

示例代码：

Document doc =Jsoup.connect("http://example.com") .data("query","Java")   .userAgent("Mozilla")   .cookie("auth","token")   .timeout(3000)   .post();

从文件中解析的方法：

File input =newFile("/tmp/input.html");Document doc =Jsoup.parse(input,"UTF-8","http://example.com/");

类试js jsoup提供下面方法：

getElementById(String id) 用id获得元素
getElementsByTag(String tag) 用标签获得元素
getElementsByClass(String className) 用class获得元素
getElementsByAttribute(String key) 用属性获得元素

同时还提供下面的方法提供获取兄弟节点：

siblingElements(), firstElementSibling(), lastElementSibling();nextElementSibling(), previousElementSibling()

用下面方法获得元素的数据：

attr(String key) 获得元素的数据
attr(String key, String value) t设置元素数据
attributes() 获得所以属性
id(), className() classNames() 获得id class得值
text()获得文本值
text(String value) 设置文本值
html() 获取html
html(String value)设置html
outerHtml() 获得内部html
data()获得数据内容
tag() 获得tag 和 tagName() 获得tagname

操作html提供了下面方法：

通过类似jquery的方法操作html

File input =newFile("/tmp/input.html");Document doc =Jsoup.parse(input,"UTF-8","http://example.com/");Elements links = doc.select("a[href]");// a with hrefElements pngs = doc.select("img[src$=.png]");   // img with src ending .pngElement masthead = doc.select("div.masthead").first();   // div with class=mastheadElements resultLinks = doc.select("h3.r > a");// direct a after h3