HTML 解析器

最新推荐文章于 2024-05-11 09:56:31 发布

aa25767139

最新推荐文章于 2024-05-11 09:56:31 发布

阅读量1.7k

点赞数

分类专栏： JAVA 文章标签： html html解析器 namespaces hashmap xml class

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aa25767139/article/details/4408252

版权

JAVA 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

市面上有很多XML 解析器，比如 SAX JDOM DOM DOM4J 等等。但是很少有HTML 解析器。HTML解析器的作用就是容错率高

比如如果我用XML 解析器去初始化HTML 文件就可能报错。因为他不是标准的XML 文档。

下面我就介绍种HTML解析器：

cyberneko是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。Dom4J则支持通过XPath表达式检索元素。用XPath检索Html真的是很爽的事！现在就开始：

第一步:cyberneko解析
DOMParser parser = new DOMParser();
parser.parse(path);
org.w3c.dom.Document w3cDoc=parser.getDocument();

第二步:w3c的Document转换为Dom4J的Document:
DOMReader domReader=new DOMReader();
document=domReader.read(w3cDoc);

        第三步:创建Xpath对象
        XPath xpath=new DefaultXPath("//DIV[@class='abc']");

        如果页面声明了xmlns命名空间，还需要加入命名空间信息
        Map nameSpaces=new HashMap();
nameSpaces.put("xmlns","http://www.w3.org/1999/xhtml");
        xpath.setNamespaceContext(new SimpleNamespaceContext(nameSpaces));
        这样，表达式就应该写成:
        "//xmlns:DIV[@xmlns:class='abc']"

第四步:检索
List nodes=xpath.selectNodes(doc);

参考: http://blog.sina.com.cn/s/blog_4a86545f0100097l.html

这个是我们老大写的一个HTML解析器，本人认为非常经典。因为当我们用httpClient去抓取别人的网站时候返回回来的是一堆HTML

文本，这些文本的解析过程是痛苦的。而有了这个HTML解析器就可以分析里面的文字，然后做业务操作。

当然还有另外一种解析方法。这个是开发人员经常使用的就是XPATH曾泽表达式方式解析。

各有优点！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HTML 解析器

市面上有很多XML 解析器，比如 SAX JDOM DOM DOM4J 等等。但是很少有HTML 解析器。HTML解析器的作用就是容错率高比如如果我用XML 解析器去初始化HTML 文件就可能报错。因为他不是标准的XML 文档。下面我就介绍种HTML解析器： cyberneko是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。Dom4J则支持通
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。