java解析网页全过程_Java网页解析

本文介绍了如何使用Java库HtmlCleaner高效地解析网页。相较于HTML Parser,HtmlCleaner速度快、处理能力强,只需少数代码即可完成网页解析,并能生成DOM或JDom对象以供进一步处理。
摘要由CSDN通过智能技术生成

介绍

今天给大家推荐一款最好的网页解析类库—HtmlCleaner。至少是目前为止最好的Java解析库。

与HtmlCleaner结缘是在年初的时候,因为一项工作需要解析Html页面,所以我在网上遍寻Html解析库。

网上口碑极佳的是HTML Parser这个库,我试了一下,速度极慢,处理一个比较大的网页需要几百毫秒,更要命的是,有些网页解析不了!

经过千辛万苦,我终于找到了籍籍无名的HtmlCleanner。一见之下,惊为天人!

HtmlCleanner

HtmlCleaner极其短小精悍,源码一共只有260KB,并且速度惊人,只需要10毫秒左右就可以处理完HtmlParser需要300毫秒处理的Html页面。

而且,根据我对网上随机的网页进行的测试,没有一个对付不了的。

打开HtmlCleaner的javadoc,常常的一串接口和类。别怕,那些都不用您操心。我们只需要关心HtmlCleaner这个类就可以了。

HtmlCleaner库的使用极其简便,只需要调用HtmlCleaner类的几个方法即可。

典型的使用过程如下:

HtmlCleaner cleaner = new HtmlCleaner(...);     // one of few constructors

cleaner.setXXX(...)                             // optionally, set cleaner's behaviour

clener.clean();                                 // calls cleaning pr

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值