HTMLParser的下载
1.HTMLParser包的下载地址:
http://sourceforge.net/projects/htmlparser/files/
2.把下载得到的文件中lib目录下的包都引入你的工程中,就可以使用HTMLParser,只引入htmlparser包的话,会无法使用某些HTMLParser里的方法。
3.关于HTMLParser的详细讲解,大家可以看看百度文库里的这篇文章:
http://wenku.baidu.com/view/d10ad25177232f60ddcca161
4.HTMLParser的帮助文档:
http://htmlparser.sourceforge.net/javadoc/index-all.html
HTMLParser的简单使用
HTMLParser主要是常用来解析html页面并获取自己需要的数据,经常是和网络爬虫(如:Hritriex)一同使用,不扯远的。在使用HTMLParser前,需要先实例化一个Parser对象:
// 实例化Parser对象
Parser parser = new Parser();
// 设置URL,该参数是String类型,这里需要捕获异常,用throws或者try catch 语句都行
parser.setURL(url);
// 设置编码,避免获取到的中午数据是乱码,
parser.setEncoding(parser.getEncoding());
执行完上面的代码后,就可以使用HTMLParser来解析html页面了,当然通常情况下,我们只是想获取某些特定的内容,而不是整个页面的数据,比方说某张图片,某些正文。这样,我们就需要对html页面的标签进行一些筛选了。
Htmlparser筛选标签的方法有3种,filter、visitor等(第3种,我给忘记了,没用过),现在分别介绍filter和 visitor
Filter
HTMLParser的org.htmlparser.filters包定义了16个不同的Filter,这里就只对我用过的filter进行介绍,其它的详细信息大家可以参照HTMLParser的帮助文档或者其它资料。
1.
// 得到名称为div的标签
NodeFilter filter = new TagNameFilter(“div”);
NodeList nodes = parser.extractAllNodeThatMatch(filter);
//得到nodes,对parser进行重置,以便于下次的filter操作
parser.reset();
2.
//找出有包含“更新时间”字符串的标签
//过滤出显示字符串中包含指定内容(如:更新时间)的标签,指定内容不包含在注释、链接//中的。
filter = new StringFilter("更新时间");
nodes = parser.extractAllNodesThatMatch
3.
//包含class属性、且属性值为:abcon_left01_right01的标签
filter = new HasAttributeFilter("class", "abcon_left01_right01");
nodes = parser.extractAllNodesThatMatch
visitor
visitor于 filter是异曲同工的,visitor也是取出符合条件的标签。
// 找出所有的图片标签,
ObjectFindingVisitor visitor = new ObjectFindingVisitor(ImageTag.class);
parser.visitAllNodesWith(visitor);
Node[] nodes = visitor.getTags();