C# HtmlEncoder和HtmlDecoder的Bug以及解决方案

看到群里的讨论,做一个备份。

1.HttpUtility.HtmlEncode和HtmlDecoder有缺陷,没有处理空格(&nbsp;)、回车(<br/> 、<p>)等元素。不过话说回来,如果能处理,那也太强大了。

  http://blog.csdn.net/wd330260402/article/details/5977989
 “使用Reflector 查看 HttpUttility.HtmlEncode 的实现,我们就可以看到,它只考虑的五种情况,空格,回车是没有处理的”

 

2.因为Html是基于XML的,如果使用XmlDocument,它不能处理非正规的html格式,也就是说,它不能容错。

 

3.有网友推荐用HtmlAgilityPack,因为它能容错,而且功能还不少,但根据别的网友测试以及反馈来看,HtmlAgilityPack在HtmlEncoder和HtmlDecoder方面,效果并不好,而且还有Bug。

 

4.最终,网友用了微软自己的方案:Microsoft.mshtml。功能多,性能好,还能容错。据说这个控件是IE用来渲染网页的。

   http://www.cnblogs.com/rupeng/archive/2010/06/26/1765840.html

   添加对Microsoft.mshtml这个程序集的引用,并且修改它的属性,把“嵌入互操作类型”改为False,然后编写如下代码:

1 IHTMLDocument2 doc = new HTMLDocumentClass();
2 string str_html = "<node>A&nbsp;&nbsp;B<ode>";
3 doc.write(new object[] { str_html });
4 doc.close();
5 
6 string str_result = doc.body.innerText;
7 
8 str_result为"A  B"

 

转载于:https://www.cnblogs.com/xxxteam/archive/2013/03/12/2956237.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值