# 2020/09/17 #「Groovy」- 操作 HTML 文档

问题描述

Jenkins Pipeline 中,我们需要对 HTML 文档进行多种操作。之前使用 XMLParser 及 XMLSlurper 库操作 HTML 文档时遇到很多问题,因为 HTML 文档结构松散(比如没有结束标签等等),不是标准的 XML 文件,因此导致 XML 解析失败。

我们现在使用 Jsoup 操作 HTML 文档,该笔记将整理:使用 Jsoup 操作 HTML 文档的常用方法

相关链接

项目主页:jsoup Java HTML Parser, with the best of HTML5 DOM methods and CSS selectors.

使用方法

// https://stackoverflow.com/questions/40433443/html-slurping-in-groovy
@Grab(group='org.jsoup', module='jsoup', version='1.10.1')
import org.jsoup.Jsoup

def htmlString = "<html>...</html>"
def htmlDocument = Jsoup.parse(htmlString)
def titleString = htmlDocument.getElementsByTag("title").text()

注意事项

如果可能,尽量不要使用任何 XML 类库操作 HTML 文本。

参考文献

K4NZ / 操作 HTML 文档
Html Slurping in Groovy
Use DOM methods to navigate a document

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页