【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档

最新推荐文章于 2022-03-09 17:44:10 发布

teemai

最新推荐文章于 2022-03-09 17:44:10 发布

阅读量8.6k

点赞数 5

分类专栏： Java技术专题网络爬虫使用JSOUP实现网络爬虫文章标签：网络爬虫 dom

本文链接：https://blog.csdn.net/withiter/article/details/14166613

版权

Java技术专题同时被 3 个专栏收录

72 篇文章 1 订阅

订阅专栏

网络爬虫

14 篇文章 0 订阅

订阅专栏

使用JSOUP实现网络爬虫

14 篇文章 473 订阅

订阅专栏

问题

你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。

方法

将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

Element content = doc.getElementById("content");
Elements links = content.getElementsByTag("a");
for (Element link : links) {
  String linkHref = link.attr("href");
  String linkText = link.text();
}

说明

Elements这个对象提供了一系列类似于DOM的方法来查找元素，抽取并处理其中的数据。具体如下：

查找元素

getElementById(String id)
getElementsByTag(String tag)
getElementsByClass(String className)
getElementsByAttribute(String key) (and related methods)
Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()
Graph: parent(), children(), child(int index)

元素数据

attr(String key)获取属性attr(String key, String value)设置属性
attributes()获取所有属性
id(), className() and classNames()
text()获取文本内容text(String value) 设置文本内容
html()获取元素内HTMLhtml(String value)设置元素内的HTML内容
outerHtml()获取元素外HTML内容
data()获取数据内容（例如：script和style标签)
tag() and tagName()

操作HTML和文本

阅读更多JSOUP相关文章，请看专栏：《使用JSOUP实现网络爬虫》

teemai

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【使用JSOUP实现网络爬虫】使用DOM方法来遍历一个文档

问题你有一个HTML文档要从中提取数据，并了解这个HTML文档的结构。方法将HTML解析成一个Document之后，就可以使用类似于DOM的方法进行操作。示例代码：File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Element
复制链接

扫一扫