【使用JSOUP实现网络爬虫】从元素抽取属性，文本和HTML

最新推荐文章于 2023-09-28 11:06:16 发布

teemai

最新推荐文章于 2023-09-28 11:06:16 发布

阅读量1.3w

点赞数 3

分类专栏： Java技术专题网络爬虫使用JSOUP实现网络爬虫文章标签：网络爬虫 jsoup

本文链接：https://blog.csdn.net/withiter/article/details/14450003

版权

Java技术专题同时被 3 个专栏收录

72 篇文章 1 订阅

订阅专栏

网络爬虫

14 篇文章 0 订阅

订阅专栏

使用JSOUP实现网络爬虫

14 篇文章 473 订阅

订阅专栏

问题

在解析获得一个Document实例对象，并查找到一些元素之后，你希望取得在这些元素中的数据。

方法

要取得一个属性的值，可以使用Node.attr(String key) 方法
对于一个元素中的文本，可以使用Element.text()方法
对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法

示例：

String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";
Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现
Element link = doc.select("a").first();//查找第一个a元素

String text = doc.body().text(); // "An example link"//取得字符串中的文本
String linkHref = link.attr("href"); // "http://example.com/"//取得链接地址
String linkText = link.text(); // "example""//取得链接地址中的文本

String linkOuterH = link.outerHtml(); 
    // "<a href="http://example.com"><b>example</b></a>"
String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容