解析HTML之jsoup 理论篇

最新推荐文章于 2021-02-16 01:35:47 发布

wangxy799

最新推荐文章于 2021-02-16 01:35:47 发布

阅读量549

点赞数

分类专栏：网络爬虫文章标签： html 网络爬虫 html解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangxy799/article/details/50598927

版权

网络爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

参考：

http://baike.baidu.com/link?url=xxxbb5JAKswcoH2q286WG1lgA3Q6O5HBrxs9eeKvVmQnRi9BjqPcBHbKaZwkPkOnWYDnQQH_TlwzkhEPOrBHxq

jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。

在使用jsoup解析html之前，有必要对html的dom结构进行一个了解。因为在jsoup中定义了例如Node、Element、Document等这样的类，你必须清楚这些类所代表的含义。下面是jsoup中org.jsoup.nodes这个包的类层次图：

Hierarchy-For-Package org.jsoup.nodes

节点(Node)

Node是最基本的，抽象的结点模型。Elements, Documents, Comments等都是 Node 的实例（或子类）.根据 DOM，HTML 文档中的每个成分都是一个节点。

DOM 是这样规定的：

整个文档是一个文档节点
每个 HTML 标签是一个元素节点
包含在 HTML 元素中的文本是文本节点
每一个 HTML 属性是一个属性节点
注释属于注释节点

Node 层次

节点彼此都有等级关系。

HTML 文档中的所有节点组成了一个文档树（或节点树）。HTML 文档中的每个元素、属性、文本等都代表着树中的一个节点。树起始于文档节点，并由此继续伸出枝条，直到处于这棵树最低级别的所有文本节点为止。

html-dom-structure

 
 <html> 
   <head> 
     <title> DOM Tutorial </title>  
   </head>  
   <body>  
     <h1> DOM Lesson one </h1>  
     <p> Hello world! </p>  
   </body>  
 </html>

上面所有的节点彼此间都存在关系。

除文档节点之外的每个节点都有父节点。举例， <head> 和 <body> 的父节点是 <html> 节点，文本节点 “Hello world!” 的父节点是 <p> 节点。

大部分元素节点都有子节点。比方说，<head> 节点有一个子节点： <title> 节点。 <title> 节点也有一个子节点：文本节点 “DOM Tutorial”。

当节点分享同一个父节点时，它们就是同辈（同级节点）。比方说，<h1> 和 <p> 是同辈，因为它们的父节点均是 <body> 节点。

节点也可以拥有后代，后代指某个节点的所有子节点，或者这些子节点的子节点，以此类推。比方说，所有的文本节点都是 <html> 节点的后代，而第一个文本节点是 <head> 节点的后代。

节点也可以拥有先辈。先辈是某个节点的父节点，或者父节点的父节点，以此类推。比方说，所有的文本节点都可把 <html> 节点作为先辈节点。

Element

一个HTML元素(Element)包含一个标记名称，属性和子节点（包括文本节点和其他元素）。从一个元素(Element)中，你可以提取数据，遍历节点图，以及操纵HTML。jsoup中的Element类提供了若干种方法来查找您希望操作的元素。

getAllElements() 返回所有的元素，包括元素的子元素，以及子元素的子元素
getElementById(String id) 根据元素的ID查找元素
getElementsByAttribute(String key) 根据属性名查找元素
getElementsByAttributeValue(String key, String value) 根据属性键值对查代元素
getElementsByClass(String className) 根据css的class查找元素
getElementsByTag(String tagName) 根据标签名称查找元素

 
  <div id="imgDiv" class="imgClass"> 
 <a href="#"> 
   <img src="http://xxxx.xx/xx.jpg"/> 
 </a> 
 </div>

在上面的例子中，我们就可以使用getElementsByTag(“img”)获取到<img src="http://xxxx.xx/xx.jpg"/>

同样的，可以使用getElementById(“imgDiv”)和getElementsByClass(“imgClass”)获取到整个dom文档。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wangxy799 CSDN认证博客专家 CSDN认证企业博客

码龄9年

90: 原创

6万+: 周排名

71万+: 总排名

64万+: 访问

: 等级

5526: 积分

190: 粉丝

146: 获赞

52: 评论

490: 收藏

私信

关注

热门文章

分类专栏

spring+mybatis 11篇
angular 2篇
java基础 35篇
Eclipse 13篇
maven 7篇
property加密 5篇
spring 7篇
JSON 1篇
SQL 2篇
网络爬虫 3篇
待完善 4篇
MongoDB 1篇
Gson 1篇
并发 12篇
ibatis 7篇
DataBase 14篇
JQuery 1篇
Tapestry 3篇
WebService 2篇
js 3篇
VUE 1篇

最新评论

Oracle存储过程详解(五)-嵌套
大卫空中擦了屁飘一声思密达: declare sql_str varchar2(255); v_empno number := 0; cursor cur1 is SELECT table_name FROM all_tab_columns WHERE column_name = 'PRIMARY_ID'; begin for x in cur1 loop sql_str := 'select count(1) as _num from '||x.table_name; dbms_output.put_line(sql_str); execute immediate sql_str into v_empno; DBMS_OUTPUT.put_line(v_empno); end loop; end; 我这样写为什么会提示无效字符 execute immediate sql_str into v_empno; 不能执行
jdk 自带文件加解密
chenglaugh1989: 我想了个方法，直接在前端页就提示，xlsx格式的表格加密后可能会损坏无法使用，如果要加密存储，请先转格式或生成zip压缩包。感觉目这个办法最好，不需要那么多花里胡哨。
jdk 自带文件加解密
chenglaugh1989: 我也遇到这种情况，也是找不到原因。你说的流的关闭顺序是指加密时还是解密时的呢？具体是哪个流关闭有问题呢。多谢指教。
json与javaBean的序列化与反序列化(待续...)
Regret云水: 啥意思，为了避免啥而使用注解
tomcat 中部署的应用响应json数据乱码解决办法
「已注销」: 确定是单引号吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。