Java过滤HTML标签，即提取HTML中的纯文本，不使用正则表达式【jsoup方式，超级简单】，附富文本方式

原创

于 2024-08-04 11:37:41 发布 · 923 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#java #html #正则表达式

服务器端提取方案（Jsoup方式）
如果你想从带HTML标签的字符串中提取纯文本的话，可以使用jsoup工具包，非常简单

应用场景，比如你的网站有个富文本编辑器，富文本编辑器中带有很多html标签，比如p标签，img标签等等，这些在富文本编辑器中时非常常见的，而富文本提交的信心带标签，我们有的时候不是要把添加的内容完全展示，而是展示缩略信息就好（也就是纯文本信息），这样简略也不影响布局，就想我们CSDN的文字缩略信息，就是从富文本内容中提取了纯文本信息（我猜的）
————————————————
版权声明：本文为CSDN博主「BigBug博客」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_31384551/article/details/81326812

实现：使用jsoup，这个是干嘛的百度去，导入jar包，链接

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.16.1</version>
</dependency>

<dependency>
            <groupId>org.jsoup</groupId>

最低0.47元/天解锁文章