基于Java的HTML解析器简介

 

基于Java的HTML解析器

    最近要做网络信息的采集,解析HTML是必不可少的,查了下这方面的工具还不少,但是不知道哪个好用,似乎HTMLParser是用的多点的,但是从06年开始就不再更新了,大概是已经满足HTML 4的解析了吧,收集了几个看起来不错的,留着备用。

Java Mozilla Html Parser
能够将html解析成Java Document对象。它是一个基于Mozilla Html解析器封装的Html解析类库。因此能够为开发人员提供一个浏览器质量的HTML解析器。
地址:
http://mozillaparser.sourceforge.net/

HtmlCleaner
是一个开源的Html文档解析器。HtmlCleaner能够重新排序每个元素然后生成结构良好(Well-Formed)的XML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来进行过滤和匹配。
地址:
http://htmlcleaner.sourceforge.net/

HTML Parser
地址:
http://htmlparser.sourceforge.net/

Jsoup

是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。比起之前用的HTMLParser方便很多,而且更轻便。
地址:
http://jsoup.org/

-------------------------------------------------------------------------

另外可以从开源中国上找到诸如Jsoup的一些文章,如:http://www.oschina.net/p/jsoup

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值