关闭

去除字符串中的HTML标签

209人阅读 评论(0) 收藏 举报
       public static string NoHTML(string strHtml)
        {
            string[] aryReg ={
                            @"<script[^>]*?>.*?</script>",
                            @"<(\/\s*)?!?((\w+:)?\w+)(\w+(\s*=?\s*(([""'])(\\[""'tbnr]|[^\7])*?\7|\w+)|.{0})|\s)*?(\/\s*)?>",
                            @"([\r\n])[\s]+",
                            @"&(quot|#34);",
                            @"&(amp|#38);",
                            @"&(lt|#60);",
                            @"&(gt|#62);",
                            @"&(nbsp|#160);",
                            @"&(iexcl|#161);",
                            @"&(cent|#162);",
                            @"&(pound|#163);",
                            @"&(copy|#169);",
                            @"&#(\d+);",
                            @"-->",
                            @"<!--.*\n"
                        };
            string[] aryRep =   {
                                "",
                                "",
                                "",
                                "\"",
                                "&",
                                "<",
                                ">",
                                "   ",
                                "\xa1",//chr(161),   
                                "\xa2",//chr(162),   
                                "\xa3",//chr(163),   
                                "\xa9",//chr(169),   
                                "",
                                "\r\n",
                                ""
                            };
            string newReg = aryReg[0];
            string strOutput = strHtml;
            for (int i = 0; i < aryReg.Length; i++)
            {
                Regex regex = new Regex(aryReg[i], RegexOptions.IgnoreCase);
                strOutput = regex.Replace(strOutput, aryRep[i]);
            }
            strOutput.Replace("<", "");
            strOutput.Replace(">", "");
            strOutput.Replace("\r\n", "");
            return strOutput;
        }
0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:142430次
    • 积分:1762
    • 等级:
    • 排名:千里之外
    • 原创:40篇
    • 转载:28篇
    • 译文:1篇
    • 评论:7条
    文章分类
    最新评论