Java爬虫（五）--数据修改

最新推荐文章于 2023-10-13 10:36:19 发布

热血蜗牛

最新推荐文章于 2023-10-13 10:36:19 发布

阅读量856

点赞数 2

分类专栏： Java 文章标签： java 爬虫 springBoot Jsoup

本文链接：https://blog.csdn.net/u010663021/article/details/77651248

版权

Java 专栏收录该内容

30 篇文章 0 订阅

订阅专栏

一、设置属性的值

问题
在你解析一个Document之后可能想修改其中的某些属性值，然后再保存到磁盘或都输出到前台页面。

方法
可以使用属性设置方法 Element.attr(String key, String value), 和 Elements.attr(String key, String value).

假如你需要修改一个元素的 class 属性，可以使用 Element.addClass(String className) 和 Element.removeClass(String className) 方法。

Elements 提供了批量操作元素属性和class的方法，比如：要为div中的每一个a元素都添加一个 rel=”nofollow” 可以使用如下方法：

doc.select("div.comments a").attr("rel", "nofollow");

说明
与Element中的其它方法一样，attr 方法也是返回当 Element (或在使用选择器是返回 Elements 集合)。这样能够很方便使用方法连用的书写方式。比如：

doc.select("div.masthead").attr("title", "jsoup").addClass("round-box");

二、设置一个元素的HTML内容

问题
你需要一个元素中的HTML内容

方法
可以使用Element中的HTML设置方法具体如下：

Element div = doc.select("div").first(); // <div></div>
div.html("<p>lorem ipsum</p>"); // <div><p>lorem ipsum</p></div>
div.prepend("<p>First</p>");//在div前添加html内容
div.append("<p>Last</p>");//在div之后添加html内容
// 添完后的结果: <div><p>First</p><p>lorem ipsum</p><p>Last</p></div>

Element span = doc.select("span").first(); // <span>One</span>
span.wrap("<li><a href='http://example.com/'></a></li>");
// 添完后的结果: <li><a href="http://example.com"><span>One</span></a></li>

说明：

Element.html(String html) 这个方法将先清除元素中的HTML内容，然后用传入的HTML代替。
Element.prepend(String first) 和 Element.append(String last) 方法用于在分别在元素内部HTML的前面和后面添加HTML内容
Element.wrap(String around) 对元素包裹一个外部HTML内容。

参见
可以查看API参考文档中 Element.prependElement(String tag)
和 Element.appendElement(String tag) 方法来创建新的元素并作为文档的子元素插入其中。

三、设置元素的文本内容

问题
你需要修改一个HTML文档中的文本内容

方法
可以使用Element的设置方法：

Element div = doc.select("div").first(); // <div></div>
div.text("five > four"); // <div>five &gt; four</div>
div.prepend("First ");
div.append(" Last");
// now: <div>First five &gt; four Last</div>