NekoHTML解析HTML为XML后TagName一直为大写的问题解决

最新推荐文章于 2022-06-01 11:22:36 发布

FieldSoft-HelloClyde

最新推荐文章于 2022-06-01 11:22:36 发布

阅读量1k

点赞数

分类专栏：大数据 Web

本文链接：https://blog.csdn.net/kydkong/article/details/78021838

版权

NekoHTML遵循HTML 4规范，即使设置"http://cyberneko.org/html/properties/names/elems"为"lower"，元素名称仍会大写。为解决此问题，可以使用Xerces2 DOMParser，通过NekoHTML解析器配置创建标准XML DOM树，元素和属性名称将根据相应属性设置。示例代码展示了如何实例化DOM解析器。

摘要由CSDN通过智能技术生成

问题：

java使用NekoHTML解析HTML的时候发现NekoHTML总是把标签名转换成大写，导致之前写的XPath都用不了，虽然可以用脚本把之前的历史XPath都转换一遍，但是如果新来的运营不知道的话，还是可能会出现不必要的麻烦。

分析：

在网上一顿搜索，发现自己的blog里也有写，只是之前没有注意，NekoHTML提供了一些配置项，可以精确的配置NekoHTML的行为。

与我们这个问题相关的配置是：

DOMParser parser = new DOMParser();
parser.setProperty("http://cyberneko.org/html/properties/names/elems", "match");
//解析HTML文件
parser.parse("http://www.baidu.com");
 //获取解析后的DOM树
Document document = parser.getDocument();

设置以后发现竟然没有用，关键是NekoHTML的官网也上不去，不知道是被墙了还是怎么。后来幸好在github找到一份镜像，找到了文档。

文档中这么写着：

Why are the DOM element names always uppercase?

最低0.47元/天解锁文章

FieldSoft-HelloClyde

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
NekoHTML解析HTML为XML后TagName一直为大写的问题解决

问题：java使用NekoHTML解析HTML的时候发现NekoHTML总是把标签名转换成大写，导致之前写的XPath都用不了，虽然可以用脚本把之前的历史XPath都转换一遍，但是如果新来的运营不知道的话，还是可能会出现不必要的麻烦。分析：在网上一顿搜索，发现自己的blog里也有写，只是之前没有注意，NekoHTML提供了一些配置项，可以精确的配置NekoHTML的行为。与我们这个
复制链接

扫一扫

专栏目录