简单的提取html中的TextNode

最新推荐文章于 2021-05-10 21:28:02 发布

eckoqzhang

最新推荐文章于 2021-05-10 21:28:02 发布

阅读量644

点赞数

分类专栏： java

本文链接：https://blog.csdn.net/u010914684/article/details/29651753

版权

java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

eclipse：导入htmlparser.jar

import org.htmlparser.util.*;
import org.htmlparser.filters.*;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;;

public class HtmlParserExtraction {
   public static void main(String[] args) throws ParserException
   {
       try {
           ParseHtmlText("http://www.hzau.edu.cn/2014/ch/", "GB2312");

       } catch (ParserException e) {
           e.printStackTrace();
       }

   }

   public static void ParseHtmlText(String url, String pageEncoding) throws ParserException
   {
       Parser parser = new Parser(url);   //访问目标网站
       parser.setEncoding(pageEncoding);   //设置解析编码的格式
       TextExtractingVisitor visitor = new TextExtractingVisitor();   //生成文本内容抽取对象
       NodeFilter textFilter = new NodeClassFilter(TextNode.class);   //生成文本过滤器
       NodeList nodes = parser.extractAllNodesThatMatch(textFilter);   //利用文本过滤解析文档
       for (int i = 0; i < nodes.size(); i++) {
           TextNode   textNode = (TextNode) nodes.elementAt(i);   //获取文本结点
           String        line = textNode.toPlainTextString().trim();   //转换成纯文本
           if(line.equals(""))       continue;
           System.out.println(line);
       }

       parser.visitAllNodesWith(visitor);   //访问网页所有的结点
       System.out.println(visitor.getExtractedText());
   }
}