htmlParser
平江夜弹
生活 & 技术 & 艺术。
展开
-
HtmlParser 的Node类型
HtmlParser主要靠Node、AbstractNode和Tag来表达Html,此外还有,Remark和Text。 Node是形成树结构表示HTML的基础,所有的数据表示都是接口Node的实现,Node定义了与页面树结构所表达的页面Page对象,定义了获取父、子、兄弟节点的方法,定义了节点到对应html文本的方法,定义了该节点对应的起止位置,定义了过滤方法,定义了Visitor访问机制。原创 2014-02-11 16:16:57 · 1161 阅读 · 0 评论 -
htmlParser 的常用的过滤器
1.TagNameFilter NodeFilter filter = new TagNameFilter ("DIV"); NodeList nodes = parser.extractAllNodesThatMatch(filter); 过滤如div、class等tag的List 2.HasChildFilter NodeFilter innerFilter = new TagN原创 2014-02-11 15:45:44 · 1406 阅读 · 0 评论