c 正则去html标签,【已解决】C#中(过滤)去除HTML标签(tag)

【问题】

C#中,处理html:Type-2 Diabetes an Autoimmune Disease? – Hemoblogin – School

时,想要去除其中的标签,此处为

但是很明显,此处的确是可以自己手动用正则处理,但是明显很不安全和不全面。

所以希望找到一个办法,很安全的处理掉所有的html的标签。

【解决过程】

1.参考:

去试试:string InnerHtml = "Losing weight and belly fat improves sleep - Harvard Health ...";

string filderteHtml =HttpUtility.HtmlDecode(InnerHtml);

结果,如开始所预料的,还是没变化。

2.而此处,本身就是正在使用HtmlAgilityPack,所以,可以直接通过:HtmlNodeCollection h3aHtmlNodes = rootHtmlNode.SelectNodes("//h3[@class='r']/a");

foreach (HtmlNode h3aNode in h3aHtmlNodes)

{

//InnerHtml

//"Losing weight and belly fat improves sleep - Harvard Health ..."

//InnerText:

//"Losing weight and belly fat improves sleep - Harvard Health ..."

string title = h3aNode.InnerText;

}

而得到对应,过滤标签之后的html的text内容的:Losing weight and belly fat improves sleep – Harvard Health …"

所以,无需再操心html的标签。

3.当然,很简单的html的标签的过滤,则可以用那个正则:String result = Regex.Replace(htmlDocument, @"]*>", String.Empty);

的,至少满足一般的需求了。

【总结】

最好的办法还是,利用html解析库,比如HtmlAgilityPack,得到html的node后,通过InnerText,而直接得到过滤了标签后的文本内容。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值