正在做一个网站分析工具,需要一个html解析器,目标是解析html文档到org.w3c.dom.Document,并且要能使用XPathAPI 进行节点查找。
今天测了很多个开源库,都不满意,只有COBRA的兼容性要好一点。
列一下今天侧过的开源库:
Cobra [color=orange]很不错,能完成任务[/color]
HTML Parser 不能解析成Document
Java HTML Parser 不太记得了,不过也不好用
Java Mozilla Html Parser 使用了本地库,但是居然解析出来的Document不能用XPathAPI查找
NekoHTML 这个是HTMLUnit在用的库,可以解析出Document,但是一部分网页不能用XPath查找
Jericho HTML Parser 可以解析出Document,但是一部分网页不能用XPath查找
JTidy 不能解析出Document
VietSpider HTMLParser 不太记得了,不过也不好用
今天测了很多个开源库,都不满意,只有COBRA的兼容性要好一点。
列一下今天侧过的开源库:
Cobra [color=orange]很不错,能完成任务[/color]
HTML Parser 不能解析成Document
Java HTML Parser 不太记得了,不过也不好用
Java Mozilla Html Parser 使用了本地库,但是居然解析出来的Document不能用XPathAPI查找
NekoHTML 这个是HTMLUnit在用的库,可以解析出Document,但是一部分网页不能用XPath查找
Jericho HTML Parser 可以解析出Document,但是一部分网页不能用XPath查找
JTidy 不能解析出Document
VietSpider HTMLParser 不太记得了,不过也不好用