公司项目中有电子书的功能,从第三方批量导入html内容,发现html标签之间有大量空格,由其一个完整的p标签中间有很多多余的空格,页面显示比较乱,数据量比较多,不可能自己手动去一个个删除。百度查了很多的都是php的例子,公司项目是asp.net c#写的,花了很长时间研究,得到一个可行的方法,分享给大家,有需要可以拿来用。
//<...>标记正则表达式
return Regex.Replace(s, @">[^>]*<", delegate(Match match)
{
string v = match.ToString();
v = v.Replace(" ", "").Replace(" ", "");
return v;
});
代码很简洁,s 表示原始转化前的html代码。
测试案例:
原如html代码:
<div style="width:980px;margin:0 auto">
<p style="padding:0;">
十九大主题报告精解,大力推进国家治理现代化的宣言书
</p>
</div>
转化成功后的html代码:
<div style="width:980px;margin:0 auto"><p style="padding:0;">十九大主题报告精解,大力推进国家治理现代化的宣言书</p></div>