从网上down了很多信息,但是带了一些不需要的table,div等标签,影响显示布局,就批量清理一下,我这里只保留p和br,要保留其他的,稍微修改一下规则就ok了
[b]原理很easy:[/b]
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用
[b]原理很easy:[/b]
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用
/**
* description: 只保留br、p标签<br>
*
* @return 2010-4-2
* @author huxiao kskr@qq.com
*/
public static String clear(String htmlStr) {
return htmlStr.replaceAll("<script.*</script>", "").replaceAll("<style.*</style>", "").replaceAll("'", "''").replaceAll("<(/?p|br[^>]*)>", "[--$1--]").replaceAll("<[^<>]+>", " ").replaceAll("\\[--([^-]+)--\\]", "<$1>");
}