今天在取截断字符时发现用struts2输出文本时,会输出html标签。如:
<s:if test="%{article.content.length()>160}">
<s:property value="article.content.substring(0,160)+'...'" />
</s:if>
<s:else>
<s:property value="article.content"/>
</s:else>
去网上查了一下,有人说可以用EL表达式解决,但EL功能有限,不能实现截断字符的功能。正确的做法是加入属性escape="false"。如下:
<s:if test="%{article.content.length()>160}">
<s:property value="article.content.substring(0,160)+'...'" escape="false" />
</s:if>
<s:else>
<s:property value="article.content" escape="false"/>
</s:else>
当然,文本内容中不能有非法字符或不完整的html标签,否则会出问题。该问题的解决方式是:写个函数,将html标签统统过滤掉。
于是,又有了下面第二种更好的解决方案:去掉所有html标签的正则表达式
去掉所有html标签的正则表达式
String htmlStr = inputString; //含html标签的字符串
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
java.util.regex.Pattern p_other;
java.util.regex.Matcher m_other;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>"; //定义script的正则表达式{或<script[^>]*?>[\\s\\S]*?<\\/script>
// }
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; //定义style的正则表达式{或<style[^>]*?>[\\s\\S]*?<\\/style>
// }
String regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式
String regEx_other = "&[a-z]+;";//一些特殊字符处理,主要是&开头;结尾
p_script = java.util.regex.Pattern.compile(regEx_script,java.util.regex.Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = java.util.regex.Pattern.compile(regEx_style,java.util.regex.Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = java.util.regex.Pattern.compile(regEx_html,java.util.regex.Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
p_other = java.util.regex.Pattern.compile(regEx_other,java.util.regex.Pattern.CASE_INSENSITIVE);
m_other = p_other.matcher(htmlStr);
htmlStr = m_other.replaceAll(""); //过滤特殊字符标签
textStr = htmlStr;
try{
byte[] bytes = textStr.getBytes("GBK");
for(int i = 0;i < bytes.length;i++) {
if (bytes[i] > 0 && bytes[i] < 32)
bytes[i] = 32;
}
textStr = new String(bytes,"GBK");
}catch(Exception e){
e.printStackTrace();
}
} catch (Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
textStr = textStr.replaceAll(" ","").replaceAll(" ","").replaceAll(",",",").replaceAll("。",".");
return textStr;//返回文本字符串
}