对HTML操作的工具类

工具类包含:去除富文本中的HTML标签、将富文本中的HTML标签里的Base64以序列化形式返回、取得HTML中所有图片的 URL。

using Newtonsoft.Json;
using System.Collections.Generic;
using System.Text.RegularExpressions;

namespace myutil.Common.Helper
{
    public static class HtmlHelper
    {
        #region 去除富文本中的HTML标签
        /// <summary>
        /// 去除富文本中的HTML标签
        /// </summary>
        /// <param name="html"></param>
        /// <param name="length"></param>
        /// <returns></returns>
        public static string ReplaceHtmlTag(string html, int length = 0)
        {
            string strText = System.Text.RegularExpressions.Regex.Replace(html, "<[^>]+>", "");
            strText = System.Text.RegularExpressions.Regex.Replace(strText, "&[^;]+;", "");

            if (length > 0 && strText.Length > length)
                return strText.Substring(0, length);

            return strText;
        }
        #endregion

        #region 将富文本中的HTML标签里的Base64以序列化形式返回
        /// <summary>
        /// 将富文本中的HTML标签里的Base64以序列化形式返回
        /// </summary>
        /// <param name="html">序列化字符串</param>
        /// <returns></returns>
        public static string GetHtmlBase64ToImgStrList(string html)
        {
            var preStr = "<img src=\\\"";
            var lastStr = "\\\"/>";
            var imgStrList = new List<string>();
            //切割获取base64字符串
            while (html.IndexOf(preStr) > -1)
            {
                var startPos = html.IndexOf(preStr);
                var endPos = html.Substring(startPos).IndexOf(lastStr) + startPos;
                if (endPos > -1)
                {
                    var imgStr = html.Substring(startPos + preStr.Length, endPos - startPos - preStr.Length);
                    html = html.Substring(endPos);
                    if (!imgStr.StartsWith("data:image"))
                    {
                        continue;
                    }
                    imgStrList.Add(imgStr);
                }
            }

            return JsonConvert.SerializeObject(imgStrList);
        }
        #endregion

        /// <summary>
        /// 取得HTML中所有图片的 URL。
        /// </summary>
        /// <param name="sHtmlText">HTML代码</param>
        /// <returns>图片的URL列表</returns>
        public static string[] GetHtmlImageUrlList(string sHtmlText)
        {
            // 定义正则表达式用来匹配 img 标签
            Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);
            // 搜索匹配的字符串
            MatchCollection matches = regImg.Matches(sHtmlText);
            int i = 0;
            string[] sUrlList = new string[matches.Count];
            // 取得匹配项列表
            foreach (Match match in matches)
                sUrlList[i++] = match.Groups["imgUrl"].Value;
            return sUrlList;
        }
    }
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值