java 使用Jsoup提取HTML纯文本

最新推荐文章于 2024-05-11 08:58:44 发布

ly-lp

最新推荐文章于 2024-05-11 08:58:44 发布

阅读量2.7k

点赞数

分类专栏： java web springMVC 文章标签： HTML JAVA 纯文本

本文链接：https://blog.csdn.net/Michean/article/details/87865584

版权

java web springMVC 专栏收录该内容

27 篇文章 0 订阅

订阅专栏

java 使用Jsoup提取HTML纯文本

网上很多提取HTML文本的方法，但是都不全，很多的特殊字符不能过滤掉，本文章讲述的方法可以将所有的标签包括HTML的特殊字符全部过滤掉。

使用maven导入Jsoup包

	<!-- HTML解析 -->
   	<dependency>
   		<groupId>org.jsoup</groupId>
   		<artifactId>jsoup</artifactId>
   		<version>1.8.1</version>
   	</dependency>

使用方法

String html = "<p>\\r\\n\\t<span style=\\\"font-size:14px;line-height:2;\\\">尊敬的用户，&nbsp;您好！</span>\\r\\n</p>";
String text = Jsoup.parse(html).text()