Jsoup.jar介绍
Jsoup是用于解析HTML的一个第三方jar包,能够快速方便的提取出DOM结构、
常用方法
获取Document
通过字符串
Jsoup.parse(String html) --根据字符串来获取Document对象
获取Body
Document d= Jsoup.parseBodyFragment(String html)
d.body() --获取Body里面的内容 虽然可以通过parse 来获取,但是这个更直观
通过URl
Connection c= Jsoup.connect(String url);
C.get(); --根据地址获取Document对象
通过文件:
File file=new File(“E://a.html”);
Jsoup.parse(file,”utf-8”,””); --第一种方式
Jsoup.parse(file,”utf-8”); --第二种方式
查找元素
- getElementById(String id) –通过ID
- getElementsByTag(String tag) –通过标签
- getElementsByAttribute(String key) –通过属性名
- siblingElements() –获取兄弟元素
- firstElementSibling() –获取老大元素
- lastElementSibling() –获取老小元素
- nextElementSibling() –获取弟弟的元素
- previousElementSibling() –获取哥哥的元素
- parent() –获取父元素
- children() –获取子元素
- child(int index) –获取指定的子元素
元素数据
- attr(String key)获取属性attr(String key, String value)设置属性
- attributes()获取所有属性
- id(), className() and classNames()
- text()获取文本内容text(String value) 设置文本内容
- html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
- outerHtml()获取元素外HTML内容
- data()获取数据内容(例如:script和style标签)
- tag() and tagName()
操作HTML和文本
- append(String html), prepend(String html)
- appendText(String text), prependText(String text)
- appendElement(String tagName), prependElement(String tagName)
- html(String value)
451

被折叠的 条评论
为什么被折叠?



