HtmlParser整体框架

最新推荐文章于 2022-10-08 10:55:03 发布

老年程序猴

最新推荐文章于 2022-10-08 10:55:03 发布

阅读量183

点赞数

分类专栏：数据挖掘

数据挖掘专栏收录该内容

5 篇文章 0 订阅

订阅专栏

转自：http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118904.html

HtmlParser关键包

org.htmlparser

定义了htmlparser的一些基础类，其中最为重要的是Parser。Parser是htmlParser的最核心的类。

org.htmlparser.beans

对Visitor和Filter的方法进行了封装，定义了针对一些常用HTML元素操作的JavaBean，简化对常用元素的提取操作。包括：FilterBean、HTMLLinkBean、HTMLTextBean、LinkBean、StringBean、BeanyBaby等。

org.htmlparser.nodes

定义了基础的node，包括：AbstractNode、RemarkNode、TagNode、TextNode等。 Node是形成树结构表示HTML的基础，所有的数据表示都是接口Node的实现。

org.htmlparser.tags

定义了HtmlParser进行解析的网页中的各种标签。

org.htmlparser.filters

定义了各种过滤器filter，主要通过extractAllNodesThatMatch (NodeFilter filter)来对html页面指定类型的元素进行过滤，包括：AndFilter、CssSelectorNodeFilter、HasAttributeFilter、HasChildFilter、HasParentFilter、HasSiblingFilter、IsEqualFilter、LinkRegexFilter、LinkStringFilter、NodeClassFilter、NotFilter、OrFilter、RegexFilter、StringFilter、TagNameFilter、XorFilter

org.htmlparser.visitors

定义了各种访问者visitor，主要通过visitAllNodesWith (NodeVisitor visitor)来对html页面元素进行遍历，包括：HtmlPage、LinkFindingVisitor、NodeVisitor、ObjectFindingVisitor、StringFindingVisitor、TagFindingVisitor、TextExtractingVisitor、UrlModifyingVisitor