java去除文本中html标签

最新推荐文章于 2024-04-23 17:29:36 发布

weixin_43169720

最新推荐文章于 2024-04-23 17:29:36 发布

阅读量352

点赞数 1

分类专栏： java 文章标签：去除html标签正则表达式

本文链接：https://blog.csdn.net/weixin_43169720/article/details/111674107

版权

java 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

今天同事遇到问题，去除文本中的html标签，使用正则匹配总是有些问题，协助解决了这个问题，记录一下，其实就是找到了一个库Jsoup。代码如下

package com.xn.map.tile;

import org.jsoup.Jsoup;

import java.io.*;

public class RemoveHtmlTag {

    public static void main(String[] args) throws IOException {
        String filePath = "D:\\work\\test\\html.txt";
        String html = readTxt(filePath);
        System.out.println(html);
        System.out.println(html2text(html));
    }

    public static String html2text(String html) {
        return Jsoup.parse(html).text();
    }

    public static String readTxt(String filePath) throws IOException {
        FileInputStream fin = new FileInputStream(filePath);
        InputStreamReader reader = new InputStreamReader(fin);
        BufferedReader buffReader = new BufferedReader(reader);
        String strTmp = "";
        StringBuilder txt = new StringBuilder();
        while((strTmp = buffReader.readLine())!=null){
            txt.append(strTmp);
        }
        buffReader.close();
        return txt.toString();
    }
}

pom中引入

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.13.1</version>
        </dependency>

weixin_43169720

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
1
评论
java去除文本中html标签

今天同事遇到问题，去除文本中的html标签，使用正则匹配总是有些问题，协助解决了这个问题，记录一下，其实就是找到了一个库Jsoup。代码如下package com.xn.map.tile;import org.jsoup.Jsoup;import java.io.*;public class RemoveHtmlTag { public static void main(String[] args) throws IOException { String filePa
复制链接

扫一扫