服务器端提取方案(Jsoup方式)
如果你想从带HTML标签的字符串中提取纯文本的话,可以使用jsoup工具包,非常简单
应用场景,比如你的网站有个富文本编辑器,富文本编辑器中带有很多html标签,比如p标签,img标签等等,这些在富文本编辑器中时非常常见的,而富文本提交的信心带标签,我们有的时候不是要把添加的内容完全展示,而是展示缩略信息就好(也就是纯文本信息),这样简略也不影响布局,就想我们CSDN的文字缩略信息,就是从富文本内容中提取了纯文本信息(我猜的)
————————————————
版权声明:本文为CSDN博主「BigBug博客」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_31384551/article/details/81326812
实现:使用jsoup,这个是干嘛的百度去,导入jar包,链接
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.16.1</version>
</dependency>
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.11.3</version> </dependency> 不使用maven的自己下载去jar下载地址 这样就实现了过滤标签/提取纯文本 客户端方案(富文本方式) 在网页中发布文章的时候提取纯文本,一般是使用富文本编辑器编写文章,大多富文本都提供有提取富文本中纯文本的api 百度UEditor ue.getContentTxt(); wangEditor editor.txt.text(); 其他的编辑器请仔细阅读文档 ———————————————— 版权声明:本文为CSDN博主「BigBug博客」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/qq_31384551/article/details/81326812
当遇到这个需求的时候第一反应就是使用正则的!进行非匹配筛选,看了一些别人写的,表示看不懂。。。
然后有点投机取巧的意思可以把不要的匹配出来然后在替换掉
提取文本
思路:去掉所有标签
/**
* 正则预编译
*/
private static final Pattern pattern = Pattern.compile("(<.+?>)|(</.+?>)");
/**
* @Description: 去掉富文本标签
* @param content 富文本
* @Author: zlh
* @Date: 2020/7/10 10:06
* @Return java.lang.String
*/
public String dealContent(String content){
// 匹配标签
Matcher matcher = pattern.matcher(content);
while (matcher.find()){
// 替换图片
content= matcher.replaceAll("").replace(" ", "");
}
return content;
}
提取中文
思路:匹配中文
/**
* 正则预编译
*/
private static final Pattern pattern = Pattern.compile("([\\u4e00-\\u9fa5]+)");
public static String getZh(String str) {
String zh = "";
Matcher matcher = Pattern.compile(regx).matcher(str);
while (matcher.find()) {
zh += match.group(0)
}
return zh;
}
- 这个只是匹配中文如果你的标签中含有中文也会匹配,文本中含有数组,字符不会匹配。