HtmlParser
hefanhappy
这个作者很懒,什么都没留下…
展开
-
Htmlparser
HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。 请看Node的定义: public interface Node extends Cloneable; Node中包含的方法有几类: 对于树型结构进行遍历的函数,这些函数最容易理解: Node getParent ():取得父节点 NodeList getChildren ():取得子节点的列...原创 2008-12-04 12:47:39 · 87 阅读 · 0 评论 -
htmlparser使用指南
需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一下htmlparser的使用,有空再研究neko...原创 2008-12-04 12:50:27 · 157 阅读 · 0 评论 -
HtmlParser
// 获取一个网页上所有的链接和图片链接 public static void extracLinks(String url) { try { Parser parser = new Parser(url); parser.setEncoding("gb2312");//过滤 <frame> 标签的 filter,用来提取 frame 标签里的 src 属性...原创 2008-12-04 12:56:14 · 87 阅读 · 0 评论 -
HtmlParser
利用htmlparser进行网页信息的抽取 2006-08-29 21:54 这是个好东西,有相见恨晚之意,也比较容易上手,对很多的功能都进行了封装,做信息采集的朋友应该尽快使用它来做抓取工作.下面给一个完整的例子: 这是一个用来抽取某个网站中产品评论的类,有兴趣的朋友可以仔细看下,欢迎交流! package com; import java.util.regex.Match...原创 2008-12-04 12:56:57 · 70 阅读 · 0 评论