jsoup:解析HTML用法小结

1.解析方式 

(1)从字符串解析 

<span style="font-size:18px;">String html = "<html><head><title>First parse</title></head>
<body><p>Parse HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);</span>
(2)从URL获取解析

<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();</span>
<span style="font-size:18px;">Document doc = Jsoup.connect("http://example.com").data("query","Java")
 .userAgent("Mozilla").cookie("auth","token")
 .timeout(3000).post();</span>
(3)从文件解析

File input = new File("/tmp/input.html");
 Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
2.DOM方式遍历元素

(1)搜索元素

<span style="font-size:18px;">getElementById(String id)
 getElementByTag(String tag)
 getElementByClass(String className)
 getElementByAttribute(String key)
 siblingElements(),
 firstElementSibling(), 
 lastElementSibling(), 
 nextElementSibling(), 
 previousElementSibling()
 parent(),
 children(), 
 child(int index)</span>
(2)获取元素数据

 <span style="font-size:18px;">attr(String key) – 获取key属性
 attributes() – 获取属性
 id(),
 className(), 
 classNames()
 text() – 获取文本内容
 html() – 获取元素内部HTML内容
 outerHtml() – 获取包括此元素的HTML内容
 data()  – 获取<srcipt>或<style>标签中的内容
 tag(),
 tagName()</span>
3.选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)

(1)基本选择器

<span style="font-size:18px;"> #id: 搜索有指定id的元素
 .class: 搜索有指定class的元素
 [attribute]: 搜索有attrribute属性的元素
 [^attri]: 搜索有以attri开头的属性的元素
 [attr=value]: 搜索有指定属性及其属性值的元素
 [attr^=value],
 [attr$=value], [attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/]
 [attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素
 *: 搜索所有元素</span>
(2)选择器组合

<span style="font-size:18px;"> el#id: 同时指定标签名称和id
 el.class: 同时指定标签名称和class
 el[attr]: 同时指定标签名称和及其中所含属性的名称
 上述3项的任意组合,如a[href].highlight
 ancestor child: 包含,如div.content p,即搜索<div class=”content”>下含有<p>标签的元素
 ancestor > child: 直接包含,如div.content > p,即搜索直属<div class="content">节点下的<p>标签元素;
 div.content > *,即搜索<div class="content">下的所有元素
 siblingA + siblingB: 直接遍历,如div.head + div,即搜索<div class="head"><div>的元素,其中不再包含子元素
 siblingA ~ siblingX: 遍历,如h1 ~ p,即<h1>下直接或间接有<p>的元素
 el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素</span>
(3)伪选择器(条件选择器)

<span style="font-size:18px;">:lt(n): 搜索n号元素之前的元素
 :gt(n): 搜索n号元素之后的元素
 :eq(n): 搜索n号元素
 :has(seletor): 搜索符合指定选择器的元素
 :not(seletor): 搜索不符合指定选择器的元素
 :contains(text): 搜索包含指定文本的元素,区分大小写
 :containsOwn(text): 搜索直接指包含指定文本的元素
 :matches(regex): 搜索符合指定正则表达式的元素
 :matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素
 注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,……</span>
4.获取元素的属性、文本和HTML

<span style="font-size:18px;">获取元素的属性值:Node.attr(String key)
 获取元素的文本,包括与其组合的子元素:Element.text()
 获取HTML:Element.html()或Node.outerHtml()</span>
5.操作URL

 <span style="font-size:18px;">Element.attr("href") – 直接获取URL
 Element.attr("abs:href")或Element.absUrl("href")  – 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串</span>
6.测试例子

<span style="font-size:18px;">li[class=info] a[class=Author] - 空格前后表示包含关系,即表示li里的a
 div[class=mod mod-main mod-lmain]:contains(教学反思) - div中包含"教学反思",适合同时有多个同名DIV的情况</span>
<span style="font-size:18px;"> /*
   previousSibling()获取某标签前面的代码
   nextSibling()获取某标签后的代码
 如:
 <form id=form1>
 第一名:Lily  <br/>  
 第二名:Tom   <br/>
 第三名:Peter <br/>
 </form>
 */
 Elements items = doc.select("form[id=form1]");
 Elements prevs = items.select("br");
 for(Element p : prevs){
    String prevStr = p.previousSibling().toString().trim());
 }</span>
<span style="font-size:18px;"> /*
 最常用的链接抓取
 */
 String itemTag = "div[class=mydiv]";
 String linkTag = "a"
 Elements items = doc.select(itemTag);
 Elements links = items.select(linkTag);
 for(Element l : links){ 
    String href = l.attr("abs:href");//完整Href
    String absHref = l.attr("href");//相对路径
    String text = l.text();
    String title = l.attr("title");
 }</span>














  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值