java中将html语言转换_JAVA 过滤标签将html内容转换为文本

项目中的大牛写的html文本过滤函数

/**

* 把html内容转为文本

* @param html 需要处理的html文本

* @param filterTags 需要保留的html标签样式

* @return

*/

public static String trimHtml2Txt(String html, String[] filterTags){

html = html.replaceAll("\\

[\\s\\S]*?(?i)", "");//去掉head

html = html.replaceAll("\\", "");//去掉注释

html = html.replaceAll("\\", "");

html = html.replaceAll("\\(?i)", "");//去掉样式

html = html.replaceAll("\\(?i)", "");//去掉js

html = html.replaceAll("\\]+>[\\s\\S]*?]+>(?i)", "");//去掉word标签

html = html.replaceAll("\\[\\s\\S]*?(?i)", "");

html = html.replaceAll("\\]*>|

]*>||(?i)", "");

html = html.replaceAll("\\\r\n|\n|\r", " ");//去掉换行

html = html.replaceAll("\\
]*>(?i)", "\n");

List tags = new ArrayList();

List s_tags = new ArrayList();

List halfTag = Arrays.asList(new String[]{"img","table","thead","th","tr","td"});//

if(filterTags != null && filterTags.length > 0){

for (String tag : filterTags) {

tags.add(""));//开始标签

if(!"img".equals(tag)) tags.add(""+tag+">");//结束标签

s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等

if(!"img".equals(tag)) s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#");

}

}

html = ExStringUtils.replaceEach(html, tags.toArray(new String[tags.size()]), s_tags.toArray(new String[s_tags.size()]));

html = html.replaceAll("\\

(?i)", "\n");

html = html.replaceAll("\\]+>", "");

html = ExStringUtils.replaceEach(html,s_tags.toArray(new String[s_tags.size()]),tags.toArray(new String[tags.size()]));

html = html.replaceAll("\\ ", " ");

return html.trim();

}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值