HtmlParser 提供了强大的类库来处理 Internet 上的网页,可以实现对网页特定内容的提取和修改。
1.循环迭代所有节点
/**
* 迭代所有节点
* @param list
* @param keyword
*/
public static void processNodeList(NodeList list, String keyword){
SimpleNodeIterator iterator = list.elements();
while(iterator.hasMoreNodes()){
Node node = iterator.nextNode();
//得到该节点的子节点列表
NodeList childList = node.getChildren();
//孩子节点为空,说明是值节点
if(childList == null){
//得到值节点的值
String result = node.toPlainTextString();
//若包含关键字。则简单打印文本
if(result.indexOf(keyword) != -1){
System.out.println(result);
}
}
else {
processNodeList(childList,keyword);
}
}
}
2.过滤关键字
/**
* 循环访问所有节点,输出包含关键字的值节点
* @param url
* @param keyword
*/
public static void ex