HtmlParser初步研究2

最新推荐文章于 2013-05-21 17:10:00 发布

dangelrose

最新推荐文章于 2013-05-21 17:10:00 发布

阅读量72

点赞数

文章标签： HTML

// 获取一个网页上所有的链接和图片链接
　　public static void extracLinks(String url) {
　　　　try {
　　　　　　Parser parser = new Parser(url);
　　　　　　parser.setEncoding("gb2312");
//过滤 <frame> 标签的 filter，用来提取 frame 标签里的 src 属性所、表示的链接
　　　　　　 NodeFilter frameFilter = new NodeFilter() {
　　　　　　　　public boolean accept(Node node) {
　　　　　　　　　　if (node.getText().startsWith("frame src=")) {
　　　　　　　　　　　　return true;
　　　　　　　　　　} else {
　　　　　　　　　　　　return false;
　　　　　　　　　　}
　　　　　　　　}
　　　　　　};
//OrFilter 来设置过滤 <a> 标签，<img> 标签和 <frame> 标签，三个标签是 or 的关系
　　 OrFilte rorFilter = new OrFilter(new NodeClassFilter(LinkTag.class), new
NodeClassFilter(ImageTag.class));
　　 OrFilter linkFilter = new OrFilter(orFilter, frameFilter);
　　//得到所有经过过滤的标签
　　NodeList list = parser.extractAllNodesThatMatch(linkFilter);
　　for (int i = 0; i < list.size(); i++) {
　　　　Node tag = list.elementAt(i);
　　　　if (tag instanceof LinkTag)//<a> 标签
　　　　{
　　　　　　LinkTag link = (LinkTag) tag;
　　　　　　String linkUrl = link.getLink();//url
　　　　　　 String text = link.getLinkText();//链接文字
　　　　　　 System.out.println(linkUrl + "**********" + text);
　　　　}
　　　　else if (tag instanceof ImageTag)//<img> 标签
　　　　{
　　　　　　ImageTag image = (ImageTag) list.elementAt(i);
　　　　　　 System.out.print(image.getImageURL() + "********");//图片地址
　　　　　　 System.out.println(image.getText());//图片文字
　　　　}
　　　　 else//<frame> 标签
　　　　{
//提取 frame 里 src 属性的链接如 <frame src="test.html"/>
　　　　　　String frame = tag.getText();
　　　　　　int start = frame.indexOf("src=");
　　　　　　frame = frame.substring(start);
　　　　　　int end = frame.indexOf(" ");
　　　　　　if (end == -1)
　　　　　　　　 end = frame.indexOf(">");
　　　　　　frame = frame.substring(5, end - 1);
　　　　　　System.out.println(frame);
　　　　}
　　}
} catch (ParserException e) {
　　　　　　e.printStackTrace();
}
}