HtmlParser整体框架

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118904.html

 

HtmlParser关键包

org.htmlparser

         定义了htmlparser的一些基础类,其中最为重要的是ParserParserhtmlParser的最核心的类。

org.htmlparser.beans

         对VisitorFilter的方法进行了封装,定义了针对一些常用HTML元素操作的JavaBean,简化对常用元素的提取操作。包括:FilterBeanHTMLLinkBeanHTMLTextBeanLinkBeanStringBeanBeanyBaby等。

org.htmlparser.nodes

         定义了基础的node,包括:AbstractNodeRemarkNodeTagNodeTextNode等。 Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现。

org.htmlparser.tags

         定义了HtmlParser进行解析的网页中的各种标签。

org.htmlparser.filters

         定义了各种过滤器filter,主要通过extractAllNodesThatMatch (NodeFilter filter)来对html页面指定类型的元素进行过滤,包括:AndFilterCssSelectorNodeFilterHasAttributeFilterHasChildFilterHasParentFilterHasSiblingFilterIsEqualFilterLinkRegexFilterLinkStringFilterNodeClassFilterNotFilterOrFilterRegexFilterStringFilterTagNameFilterXorFilter

org.htmlparser.visitors

         定义了各种访问者visitor,主要通过visitAllNodesWith (NodeVisitor visitor)来对html页面元素进行遍历,包括:HtmlPageLinkFindingVisitorNodeVisitorObjectFindingVisitorStringFindingVisitorTagFindingVisitorTextExtractingVisitorUrlModifyingVisitor

org.htmlparser.parserapplications

         定义了一些实用的工具,包括LinkExtractorSiteCapturerStringExtractorWikiCapturer,这几个类也可以作为HtmlParser使用样例。

org.htmlparser.tests

         各种功能的单元测试用例,可作为HtmlParser使用的样例。

HtmlParser内部关系结构图:后面我会对这个结构以及HtmlParser的解析流程进行详细的阐述。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值