删除html标签的工具类
/**
* 删除html标签
*
* @param inputstring
* @return
*/
public static string htmlremovetag(string html) {
if (html == null)
return null;
string htmlstr = html; // 含html标签的字符串
string textstr = "";
java.util.regex.pattern p_script;
java.util.regex.matcher m_script;
java.util.regex.pattern p_style;
java.util.regex.matcher m_style;
java.util.regex.pattern p_html;
java.util.regex.matcher m_html;
try {
string regex_script = "]*?>[\\s\\s]*?"; // 定义script的正则表达式{或
// }
string regex_style = "<[\\s]*?style[^>]*?>[\\s\\s]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>"; // 定义style的正则表达式{或]*?>[\\s\\s]*?<\\/style>
// }
string regex_html = "<[^>]+>"; // 定义html标签的正则表达式
p_script = pattern.compile(regex_script, pattern.case_insensitive);
m_script = p_script.matcher(htmlstr);
htmlstr = m_script.replaceall(""); // 过滤script标签
p_style = pattern.compile(regex_style, pattern.case_insensitive);
m_style = p_style.matcher(htmlstr);
htmlstr = m_style.replaceall(""); // 过滤style标签
p_html = pattern.compile(regex_html, pattern.case_insensitive);
m_html = p_html.matcher(htmlstr);
htmlstr = m_html.replaceall(""); // 过滤html标签
textstr = htmlstr;
} catch (exception e) {
// system.err.println("html2text: " + e.getmessage());
}
return textstr.replaceall("\\s*", "");// 返回文本字符串
}