其实从html富文本中提取纯文本很简单,富文本基本上是使用html标签给文本加上丰富多彩的样式。
所以只需要将富文本字符串中的“<.....>”标签剔除,即可得到纯文本。我们可以使用正则表达式,来匹配所有的html标签,并替换成空字符,如下:
//html剔除富文本标签,留下纯文本
function getSimpleText(html){
var re1 = new RegExp("<.>","g");//匹配html标签的正则表达式,"g"是搜索匹配多个符合的内容
var msg = html.replace(re1,'');//执行替换成空字符
return msg;
}
java:
str = str.replaceAll("<.>", "");
------------------------------------