jsoup:解析HTML用法小结

1.解析方式 
(1)从字符串解析 
?
1
2
3
String html = "<html><head><title>First parse</title></head>"
            + "<body><p>Parse HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
(2)从URL获取解析
?
1
2
Document doc = Jsoup.connect("http://example.com/").get();
String title = doc.title();
?
1
2
3
4
5
6
Document doc = Jsoup.connect("http://example.com")
  .data("query", "Java")
  .userAgent("Mozilla")
  .cookie("auth", "token")
  .timeout(3000)
  .post();
(3)从文件解析
?
1
2
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");
2.DOM方式遍历元素
(1)搜索元素
?
1
2
3
4
5
6
getElementById(String id)
getElementByTag(String tag)
getElementByClass(String className)
getElementByAttribute(String key)
siblingElements(), firstElementSibling(), lastElementSibling(), nextElementSibling(), previousElementSibling()
parent(), children(), child(int index)
(2)获取元素数据
?
1
2
3
4
5
6
7
8
attr(String key) – 获取key属性
attributes() – 获取属性
id(), className(), classNames()
text() – 获取文本内容
html() – 获取元素内部HTML内容
outerHtml() – 获取包括此元素的HTML内容
data() – 获取<srcipt>或<style>标签中的内容
tag(), tagName()
3.选择器语法(jsoup与其他解析器的区别就是可以使用类似jquery的选择器语法来搜索及过滤出所需的元素)
(1)基本选择器
?
1
2
3
4
5
6
7
8
9
10
tagname: 搜索tag标签的元素
ns|tag: 搜索命名空间内tag标签的元素,如fb|name:<fb:name>
#id: 搜索有指定id的元素
.class: 搜索有指定class的元素
[attribute]: 搜索有attrribute属性的元素
[^attri]: 搜索有以attri开头的属性的元素
[attr=value]: 搜索有指定属性及其属性值的元素
[attr^=value], [attr$=value], [attr*=value]: 搜索有指定attr属性,且其属性值是以value开头、结尾或包括value的元素,如[href*=/path/]
[attr~=regex]: 搜索有指定attr属性,且其属性值符合regex正则表达式的元素
*: 搜索所有元素
(2)选择器组合
?
1
2
3
4
5
6
7
8
9
el#id: 同时指定标签名称和id
el.class: 同时指定标签名称和class
el[attr]: 同时指定标签名称和及其中所含属性的名称
上述3项的任意组合,如a[href].highlight
ancestor child: 包含,如div.content p,即搜索<div class=”content”>下含有<p>标签的元素
ancestor > child: 直接包含,如div.content > p,即搜索直属<div class="content">节点下的<p>标签元素;div.content > *,即搜索<div class="content">下的所有元素
siblingA + siblingB: 直接遍历,如div.head + div,即搜索<div class="head"><div>的元素,其中不再包含子元素
siblingA ~ siblingX: 遍历,如h1 ~ p,即<h1>下直接或间接有<p>的元素
el, el, el: 组合多个选择器,搜索满足其中一个选择器的元素
(3)伪选择器(条件选择器)
?
1
2
3
4
5
6
7
8
9
10
:lt(n): 搜索n号元素之前的元素
:gt(n): 搜索n号元素之后的元素
:eq(n): 搜索n号元素
:has(seletor): 搜索符合指定选择器的元素
:not(seletor): 搜索不符合指定选择器的元素
:contains(text): 搜索包含指定文本的元素,区分大小写
:containsOwn(text): 搜索直接指包含指定文本的元素
:matches(regex): 搜索符合指定正则表达式的元素
:matchesOwn(regex): 搜索本元素文本中符合指定正则表达式的元素
注意:以上伪选择器的索引中,第一个元素位于索引0,第二个元素位于索引1,……
4.获取元素的属性、文本和HTML
?
1
2
3
获取元素的属性值:Node.attr(String key)
获取元素的文本,包括与其组合的子元素:Element.text()
获取HTML:Element.html()或Node.outerHtml()

5.操作URL

?
1
2
Element.attr("href") – 直接获取URL
Element.attr("abs:href")或Element.absUrl("href") – 获取完整URL。如果HTML是从文件或字符串解析过来的,需要调用Jsoup.setBaseUri(String baseUri)来指定基URL,否则获取的完整URL只会是空字符串


6.测试例子

?
1
2
li[class=info] a[class=Author] - 空格前后表示包含关系,即表示li里的a
div[class=mod mod-main mod-lmain]:contains(教学反思) - div中包含"教学反思",适合同时有多个同名DIV的情况
?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
/*
  previousSibling()获取某标签前面的代码
  nextSibling()获取某标签后的代码
  如:
  <form id=form1>
  第一名:Lily  <br/>
  第二名:Tom   <br/>
  第三名:Peter <br/>
  </form>
*/
Elements items = doc.select("form[id=form1]");
Elements prevs = items.select("br");
for(Element p : prevs){
   String prevStr = p.previousSibling().toString().trim());
}
?
1
2
3
4
5
6
7
8
9
10
11
12
13
/*
 最常用的链接抓取
*/
String itemTag = "div[class=mydiv]";
String linkTag = "a"
Elements items = doc.select(itemTag);
Elements links = items.select(linkTag);
for(Element l : links){
  String href = l.attr("abs:href");//完整Href
  String absHref = l.attr("href");//相对路径
  String text = l.text();
  String title = l.attr("title");
}
电子时钟设计是一个基于单片机的综合性电子项目,涵盖硬件设计、软件设计、模块代码编写以及运行展示等多个环节。以下是该项目的详细分析与知识点总结: 电子时钟设计是一项课程设计任务,目标是开发一个功能完善的电子时钟系统。该系统以单片机为核心控制器,具备时间显示、设置和控制等功能,旨在满足用户的日常使用需求。 硬件设计的核心是系统方案原理图,它明确了系统的整体架构以及各组件之间的连接关系。外设设计方面,键盘输入模块和数码管显示模块是关键部分。键盘输入模块的工作原理包括键盘扫描、按键识别以及状态机控制等环节;数码管显示模块的工作原理则涉及数码管的驱动、显示控制和状态机控制等内容。 软件设计的核心是项目软件系统总架构图,它详细介绍了系统的软件框架,涵盖单片机编程、键盘输入模块流程图与代码、数码管显示模块流程图与代码等方面。顺序图则展示了软件的运行流程,包括系统初始化、键盘输入处理、显示控制和状态机控制等环节。 模块代码是系统各模块功能的具体实现。例如,键盘输入模块的代码实现了键盘扫描、按键识别和状态机控制等功能;数码管显示模块的代码实现了数码管驱动、显示控制和状态机控制等功能。 运行展示是项目的最终成果呈现环节,展示了电子时钟的实际运行效果,包括时间的准确显示、便捷的设置操作以及稳定的控制功能等。 单片机原理:掌握单片机的架构、指令系统和编程方法。 Proteus仿真:熟悉Proteus仿真原理、仿真环境及仿真操作。 C语言编程:理解C语言的语法、数据类型、控制结构、函数和数组等基础知识。 电子时钟设计:了解电子时钟的工作原理、设计方法和实现技术。 硬件设计:掌握硬件设计的基本原理、方法和工具。 软件设计:熟悉软件设计的基本原理、方法和工具。 模块代码实现:掌握模块代码的设计、编程和调试技巧。 电子时钟设计项目融合了硬件与软件设计,通过模块代码实现功能,并通过运行展示呈现最终效果。掌握
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值