换种思路来实现C#保留图片前提下将html转换为纯文本

最新推荐文章于 2023-09-26 14:12:16 发布

kllsg

最新推荐文章于 2023-09-26 14:12:16 发布

阅读量202

点赞数

文章标签： c#

本文链接：https://blog.csdn.net/kllsg/article/details/104728101

版权

在制作一个导出导入工具的时候，遇到一个问题，就是读取的数据是html格式的，如果不进行格式整理，直接导入，会导致显示出现各种各样的问题，为此，想把html转换为纯文本，但是，因为html中有大量插图，需要保留，因此，需要实现html转换为纯文本的同时，保留图片。

因此，引入html转换为纯文本的函数。

        /// <summary>
        /// 将html文本转化为 文本内容方法TextNoHTML
        /// </summary>
        /// <param name="Htmlstring">HTML文本值</param>
        /// <returns></returns>
        public static string TextNoHTML(string Htmlstring)
        {
            //删除脚本   
            Htmlstring = Regex.Replace(Htmlstring, @"<script[^>]*?>.*?</script>", "", RegexOptions.IgnoreCase);
            //删除HTML   
            Htmlstring = Regex.Replace(Htmlstring, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"([/r/n])[/s]+", "", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"-->", "", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"<!--.*", "", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(quot|#34);", "/", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(amp|#38);", "&", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(lt|#60);", "<", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(gt|#62);", ">", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(nbsp|#160);", "   ", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(iexcl|#161);", "/xa1", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(cent|#162);", "/xa2", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(pound|#163);", "/xa3", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&(copy|#169);", "/xa9", RegexOptions.IgnoreCase);
            Htmlstring = Regex.Replace(Htmlstring, @"&#(/d+);", "", RegexOptions.IgnoreCase);
            //替换掉 < 和 > 标记
            Htmlstring = Htmlstring.Replace("<", "");
            Htmlstring = Htmlstring.Replace(">", "");
            Htmlstring = Htmlstring.Replace("\r\n", "<br>");
            Htmlstring = Htmlstring.Replace("\r", "");
            Htmlstring = Htmlstring.Replace("\n", "");
            //返回去掉html标记的字符串
            return Htmlstring;
        }

通过搜索工具，找到了下面这个html转换为纯文本的函数，经过测试，非常好用，一切正常的。

但是有一个问题，就是不能保留<img>标签，图片无法得到保留，不符合要求。

怎么办呢？高手当然可以修改代码，将<img>标签保留，但是修改起来难度较大，而且，正则表达式比较难写，至少以我的水平短时间内搞不定，为此，开拓思路，想到先把<img>标签替换为汉字，等html转换为纯文本后，再将<img>标签替换回来的方式。

经实践可行，而且，想保留那种标签都能够使用，方便快捷，代码如下：

                foreach (var i in lstmg)
                {
                    sContent = sContent.Replace(i.Value, "占位"+lstmg.IndexOf(i));
                }
                sContent = TextNoHTML(sContent);

                foreach (var i in lstmg)
                {
                    sContent = sContent.Replace("占位" + lstmg.IndexOf(i), "<p style=\"text-align: center\">" + i.Value + "<p>");
                }

通过第一次循环，将所有<img>标签替换为占位1、占位2、占位3……，然后将html转换为纯文本，然后，再通过循环，将<img>替换回来，虽然效率上不是很高，但是也不失为一种简单易行的方案。记录下来，供备忘，也供大家参考。

kllsg

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
换种思路来实现C#保留图片前提下将html转换为纯文本

在制作一个导出导入工具的时候，遇到一个问题，就是读取的数据是html格式的，如果不进行格式整理，直接导入，会导致显示出现各种各样的问题，为此，想把html转换为纯文本，但是，因为html中有大量插图，需要保留，因此，需要实现html转换为纯文本的同时，保留图片。因此，引入html转换为纯文本的函数。通过搜索工具，找到了下面这个html转换为纯文本的函数，经过测试，非常好用，一切正常的...
复制链接

扫一扫