c 正则去html标签,【已解决】C#中（过滤）去除HTML标签（tag）

最新推荐文章于 2023-07-13 15:51:32 发布

DoomDinse

最新推荐文章于 2023-07-13 15:51:32 发布

阅读量579

点赞数

文章标签： c 正则去html标签

【问题】

C#中，处理html：Type-2 Diabetes an Autoimmune Disease? – Hemoblogin – School …

时，想要去除其中的标签，此处为。

但是很明显，此处的确是可以自己手动用正则处理，但是明显很不安全和不全面。

所以希望找到一个办法，很安全的处理掉所有的html的标签。

【解决过程】

1.参考：

去试试：string InnerHtml = "Losing weight and belly fat improves sleep - Harvard Health ...";

string filderteHtml =HttpUtility.HtmlDecode(InnerHtml);

结果，如开始所预料的，还是没变化。

2.而此处，本身就是正在使用HtmlAgilityPack，所以，可以直接通过：HtmlNodeCollection h3aHtmlNodes = rootHtmlNode.SelectNodes("//h3[@class='r']/a");

foreach (HtmlNode h3aNode in h3aHtmlNodes)

{

//InnerHtml

//"Losing weight and belly fat improves sleep - Harvard Health ..."

//InnerText:

//"Losing weight and belly fat improves sleep - Harvard Health ..."

string title = h3aNode.InnerText;

}

而得到对应，过滤标签之后的html的text内容的：Losing weight and belly fat improves sleep – Harvard Health …"

所以，无需再操心html的标签。

3.当然，很简单的html的标签的过滤，则可以用那个正则：String result = Regex.Replace(htmlDocument, @"]*>", String.Empty);

的，至少满足一般的需求了。

【总结】

最好的办法还是，利用html解析库，比如HtmlAgilityPack，得到html的node后，通过InnerText，而直接得到过滤了标签后的文本内容。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
c 正则去html标签,【已解决】C#中（过滤）去除HTML标签（tag）

【问题】C#中，处理html：Type-2 Diabetes an Autoimmune Disease? – Hemoblogin – School …时，想要去除其中的标签，此处为。但是很明显，此处的确是可以自己手动用正则处理，但是明显很不安全和不全面。所以希望找到一个办法，很安全的处理掉所有的html的标签。【解决过程】1.参考：去试试：string InnerHtml = "Losing ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。