java 清除 HTML标签格式、CSS 样式
JAVA代码可以这样写:
public
static String
delTagsFContent(String content){
String strHtml="";//HTML文本代码
String strClear=strHtml.replaceAll( ".*?(.*?)",
"$1"); //读出body内里所有内容
strClear=strClear.replaceAll("?[^/?(br)|(p)][^>","");//保留br标签和p标签
system.out.println(strClear);//输出结果
}
public static String delTagsFContent(String content){
String strHtml="";//HTML文本代码
String strClear=strHtml.replaceAll( ".*?(.*?)", "$1"); //读出body内里所有内容
strClear=strClear.replaceAll("?[^/?(br)|(p)][^>","");//保留br标签和p标签
system.out.println(strClear);//输出结果
}
如果要保留IMG标签的话,正则表达式就是:?[^/?(img)][^>
如果想保留更多的标签,只在正则表达式改一下就可以了, ?[^/?(img)|(p)][^>
这个保留(这里写的保留了img,p这两个标签)你指定的标签,其他的(包括font)全去掉,
如果你还有其他的标签想保留,直接在里面加一个 |(xxx)就行了
想去掉所有的标签的话正则表达式为:?[a-zA-Z]+[^>