得到一个网页的纯文字内容

最新推荐文章于 2021-10-19 13:28:19 发布

i1see1you

最新推荐文章于 2021-10-19 13:28:19 发布

阅读量598

点赞数

文章标签： string null

本文链接：https://blog.csdn.net/i1see1you/article/details/4386932

版权

用htmlparser实现的得到一个网页的纯文本内容,代码如下:

public static String getPlainTextFromHTML(String inputHtml){
StringBuffer text = new StringBuffer();

        Parser parser=null;
        parser = Parser.createParser(inputHtml,"UTF-8");
        // 遍历所有的节点
        NodeList nodes=null;
  try {
   nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
       public boolean accept(Node node) {
           return true;
       }
   });
  } catch (ParserException e) {
   e.printStackTrace();
  }
  for(int i=0;i<nodes.size();i++)
  {
        Node node = nodes.elementAt(i);
        text.append(node.toPlainTextString());
  }
        return text.toString();
    }

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

i1see1you

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
得到一个网页的纯文字内容

用htmlparser实现的得到一个网页的纯文本内容,代码如下: public static String getPlainTextFromHTML(String inputHtml){ StringBuffer text = new StringBuffer(); Parser parser=null; parser = Parser.cr
复制链接

扫一扫