JAVA过滤富文本html标签,保留文字
使用正则过滤难免会出现许多奇奇怪怪的问题,今天这里使用jsoup包来解析
1.Maven引入jsoup包
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.11.3</version>
</dependency>
2.调用parse方法即可
Jsoup.parse("<div>这是一篇文章<div>").text();
ps: 进阶-使用jsoup爬取网站内容
可以参考 JAVA给网站添加爬虫数据-超简单(jsoup)新闻图片数据