eclipse:导入htmlparser.jar
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.*;
import org.htmlparser.filters.*;
import org.htmlparser.Parser;
import org.htmlparser.util.ParserException;
public class HtmlParserGetPageUrls {
public static void main(String[] args) throws ParserException
{
try {
ParseHtmlText("http://www.hzau.edu.cn/2014/ch/", "GB2312"); //网址可以自己修改
} catch (ParserException e) {
e.printStackTrace();
}
}
public static void ParseHtmlText(String url, String pageEncoding) throws ParserException
{
NodeList nodes = null;
try {
Parser parser = new Parser(url); //访问目标网站
parser.setEncoding(pageEncoding); //设置解析编码的格式
nodes = parser.parse(new NodeClassFilter(LinkTag.class)); //关键这里设置解析时的NodeFilter
}catch (ParserException e) {
e.printStackTrace();
}
if (nodes != null && nodes.size() > 0) {
for (int i = 0; i < nodes.size(); i++) {
String urlLink = ((LinkTag)nodes.elementAt(i)).extractLink();
String linkName = ((LinkTag)nodes.elementAt(i)).getLinkText();
System.out.println(linkName+": "+urlLink);
}
}
}
}