几个open source的html parser的比较


======================================================
注:本文源代码点此下载
======================================================

几个open source的html parser的比较

is - 15:48:46 - categories: java

htmlparser

最先是看见sourceforge上下载的包,真是有点大的吓人,一个小小的html parser, 居然有5m。下载回来,展开刨去文档等等杂乱的部分,source也还是不小的。用ant build过后,生成两个jar,htmlparser.jar(200k)和htmllexer.jar(56k)。我关心的是对html文件的剖析,所以只关心parser。试了一下,似乎独立的htmlparser.jar就可以了,不需要lib目录里面那些依赖的库。类的结构是比较清晰,划分的比较细致。source目录中有几个sample,都比较简单,很容易看懂。和使用xml parser感觉差不多,也有event driver的接口,扩充一下也很容易生成dom tree,容易上手。

jericho

一个简单小型的html parser,程序包比较小,500k左右,build出来的jar包40k, 相对于上面的html parser来说是小巧了很多。使用方面,jericho没有提供类似sax的接口,也不关注细部结构。对于jericho核心概念是segment,一个标记,一段内容,都是segment,在这个概念层次之上是starttag, endtag等等。看了jericho自己带的sample,也都很简单,不过平时用惯了xml一套处理方法的人,会比较不习惯的,我想。源代码的质量一般,没有html parser的好看。

nekohtml

这是一个基于apache xerces-j,依赖于xerces-j的xni接口。想到xerces-j那么大的一个东西,就发毛,放弃。

java html parser

主页除了下载的连接,没有啥更多信息了,看着也比较让人发毛,没有试

tagsoup

主页上的download source链接断了,给作者发了信,很快有了答复,说修好了。编译出来的jar包30k,也算短小精悍。因为核心代码需要用模板生成,所以必须在有perl的环境中才能正常编译。没有文档,没有简单的sample,看source,有些头晕,感觉更合适做编译原理语法分析和状态机这个部分的演示教材。

btw: 主页上说,tagsoup的handler接口和sax的handler非常相近,不过也没有明确的说,就是完全兼容的。

leave a comment - trackback (0)

-->- permalink


======================================================
在最后,我邀请大家参加新浪APP,就是新浪免费送大家的一个空间,支持PHP+MySql,免费二级域名,免费域名绑定 这个是我邀请的地址,您通过这个链接注册即为我的好友,并获赠云豆500个,价值5元哦!短网址是http://t.cn/SXOiLh我创建的小站每天访客已经达到2000+了,每天挂广告赚50+元哦,呵呵,饭钱不愁了,\(^o^)/
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值