介绍
今天给大家推荐一款最好的网页解析类库—HtmlCleaner。至少是目前为止最好的Java解析库。
与HtmlCleaner结缘是在年初的时候,因为一项工作需要解析Html页面,所以我在网上遍寻Html解析库。
网上口碑极佳的是HTML Parser这个库,我试了一下,速度极慢,处理一个比较大的网页需要几百毫秒,更要命的是,有些网页解析不了!
经过千辛万苦,我终于找到了籍籍无名的HtmlCleanner。一见之下,惊为天人!
HtmlCleanner
HtmlCleaner极其短小精悍,源码一共只有260KB,并且速度惊人,只需要10毫秒左右就可以处理完HtmlParser需要300毫秒处理的Html页面。
而且,根据我对网上随机的网页进行的测试,没有一个对付不了的。
打开HtmlCleaner的javadoc,常常的一串接口和类。别怕,那些都不用您操心。我们只需要关心HtmlCleaner这个类就可以了。
HtmlCleaner库的使用极其简便,只需要调用HtmlCleaner类的几个方法即可。
典型的使用过程如下:
HtmlCleaner cleaner = new HtmlCleaner(...); // one of few constructors
cleaner.setXXX(...) // optionally, set cleaner's behaviour
clener.clean(); // calls cleaning pr