htmlparser过滤关键字

最新推荐文章于 2024-07-17 19:32:25 发布

psyixiao

最新推荐文章于 2024-07-17 19:32:25 发布

阅读量520

点赞数

分类专栏： HtmlParser 文章标签： string iterator exception list null url

HtmlParser 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.util.SimpleNodeIterator;

public class TestPs {

/**
* @param args
*/
public static void main(String[] args) throws Exception{
  // TODO Auto-generated method stub
  extractKeyWordText("http://www.baidu.com","百度");
}

public static void extractKeyWordText(String url, String keyword) {
  try {
            //生成一个解析器对象，用网页的 url 作为参数
   Parser parser = new Parser(url);
   //设置网页的编码,这里只是请求了一个 gb2312 编码网页
   parser.setEncoding("gb2312");
   //迭代所有节点, null 表示不使用 NodeFilter
   NodeList list = parser.parse(null);
            //从初始的节点列表跌倒所有的节点
   processNodeList(list, keyword);
  } catch (ParserException e) {
   e.printStackTrace();
  }
}

private static void processNodeList(NodeList list, String keyword) {
  //迭代开始
  SimpleNodeIterator iterator = list.elements();
  while (iterator.hasMoreNodes()) {
   Node node = iterator.nextNode();
   //得到该节点的子节点列表
   NodeList childList = node.getChildren();
   //孩子节点为空，说明是值节点
   if (null == childList)
   {
    //得到值节点的值
    String result = node.toPlainTextString();
    //若包含关键字，则简单打印出来文本
    if (result.indexOf(keyword) != -1)
     System.out.println(result);
   } //end if
   //孩子节点不为空，继续迭代该孩子节点
   else
   {
    processNodeList(childList, keyword);
   }//end else
  }//end wile
}
}

psyixiao

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
htmlparser过滤关键字

import org.htmlparser.Node;import org.htmlparser.Parser;import org.htmlparser.util.NodeList;import org.htmlparser.util.ParserException;import org.htmlparser.util.SimpleNodeIterator;public cl
复制链接

扫一扫