Cobra: Java HTML 解析器

最新推荐文章于 2024-04-08 14:34:05 发布

dangelrose

最新推荐文章于 2024-04-08 14:34:05 发布

阅读量362

点赞数

分类专栏： HtmlAnalysis 文章标签： HTML Java 浏览器 Google JavaScript ViewUI

HtmlAnalysis 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

Cobra 简介:
Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有:

实现了W3C HTML DOM Level 2接口。
能够解析某些浏览器所识别的 "street HTML"。
能够在headless模式中被使用。
当文档被解析时,对于Dom修改提供incremental notifications。
提供增量地修改Dom的方式,比如,设置一个页面元素的 "innerHTML" 属性。
识别Javascript.解析过程中对Dom的修改能够在结果Dom中反映出来，另外能实现对Javascript的禁用。
识别css2。

使用方法:
推荐做法是通过DocumentBuilderImpl类来使用Cobra HTML parser，如下所示：

Java 代码

import org.lobobrowser.html.parser.*;
import org.lobobrowser.html.test.*;
import org.lobobrowser.html.*;
import org.w3c.dom.*;
...
UserAgentContext context = new SimpleUserAgentContext();
DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);
//指定文档URI和字符集合
Document document = dbi.parse(new InputSourceImpl(inputStream, documentURI, charset));

import org.lobobrowser.html.parser.*;
import org.lobobrowser.html.test.*;
import org.lobobrowser.html.*;
import org.w3c.dom.*;
...
UserAgentContext context = new SimpleUserAgentContext();
DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);
//指定文档URI和字符集合
Document document = dbi.parse(new InputSourceImpl(inputStream, documentURI, charset));

HtmlParser 类也能被直接使用，尤其是在第三方Dom的实现中，或者在某个比较特殊的Dom节点(引用innerHTML属性的地方)下解析HTML:

Java 代码

import org.lobobrowser.html.parser.*;
import org.lobobrowser.html.test.*;
import org.lobobrowser.html.*;
import org.w3c.dom.*;
import org.w3c.dom.html2.*;
...
UserAgentContext context = new SimpleUserAgentContext();
DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);
HTMLDocument document = (HTMLDocument) dbi.createDocument();
...
HtmlParser parser = new HtmlParser(context, document);
parser.parse(myReader, someParentNode);

import org.lobobrowser.html.parser.*;
import org.lobobrowser.html.test.*;
import org.lobobrowser.html.*;
import org.w3c.dom.*;
import org.w3c.dom.html2.*;
...
UserAgentContext context = new SimpleUserAgentContext();
DocumentBuilderImpl dbi = new DocumentBuilderImpl(context);
HTMLDocument document = (HTMLDocument) dbi.createDocument();
...
HtmlParser parser = new HtmlParser(context, document);
parser.parse(myReader, someParentNode);

性能贴士
远程脚本和css文档载入速度对解析器的性能影响显著，有两种提高性能的方法:

禁用Javascripte 或 css
启用某些缓存机制

相关信息
本文所涉及内容在 Cobra 0.98.1+版本中均有体现,相关下载信息和API文档:
SourceForge下载地址
Api文献

来自: http://lobobrowser.org

11
顶

0
踩

评论共 5 条发表评论

5 楼 wukele 2010-03-25 15:01 引用

[/b][b] [b][/b] [/i][i] [/u][u] [color=brown][/color]

4 楼 zhangyou1010 2010-02-04 11:38 引用

我做的一个程序中用这个支持JS.
转DOM还好. 执行JS时可能会报异常. 对JS语法支持与浏览器还有点差距.
我对cobra.jar做了一点点改动. 主要是请求超设置与字符转码.

3 楼 zhangyou1010 2010-02-04 11:38 引用

2 楼 Eric_2007 2008-12-19 16:27 引用

哪位高手能详细写个帖子，像这类Html的解析工具该如何学习呢，感觉不知从哪下手，学习效率很低啊，难度很大啊！如有高手回应，本人将不胜感激！

1 楼 fins 2008-03-27 09:07 引用

感兴趣研究一下

基于这个应该可以开发一些类似自动测试的东西吧

dangelrose

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Cobra: Java HTML 解析器

Cobra 简介:Cobra是一个HTML工具包。它包含一个纯Java HTML DOM 分析器和一个页面表现引擎。Cobra支持HTML4,Javascript 和CSS2。声明的新特征有:实现了W3C HTML DOM Level 2接口。能够解析某些浏览器所识别的 "street HTML"。能够在headless模式中被使用。当...
复制链接

扫一扫