1.Jsoup简介
Jsoup是一个java html解析器。它是一个用于解析HTML文档的java库。Jsoup提供api来从URL或HTML文件中提取和操作数据。它使用DOM,CSS和类似
Jquery的方法来提取和操作文件。
2.Jsoup API介绍
jsoup api中有6个包,提供用于开发jsoup应用程序的类和接口。红色标注的是常用的。
org.jsoup
org.jsoup.examples
org.jsoup.helper
org.jsoup.nodes
org.jsoup.parser
org.jsoup.safety
org.jsoup.salect
2.1jsoup对象的API方法
2.2Elements对象的API方法
这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:
(1)查找元素
getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)
attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames() 通过标签的id,css的类名称,所有css的类名称获取信息
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容(例如:script和style标签)
tag() and tagName() 获取标签和标签名称
(3)操作HTML和文本
append(String html), prepend(String html)
appendText(String text), prependText(String text)
appendElement(String tagName),prependElement(String tagName)
html(String value)