正则表达式(二)

           上次有个朋友来问了一个关于seo方面的问题,把Html文档中的所有图片的alt属性值替换成指定的值。首先我们就想到用正则表达式,目标任务:只替换img标签的alt属性值。


    alt属性可能不只有img有,所以限定只替换img的alt属性。输入的话,一个html文档差不多有上万行代码。所以用简单粗暴的查找替换是可耻的。正则才是比较优雅的解决之道。


    现在我们来分析一下我们要替换的字符串的特征。

    1、以“<img"开头;

    2、带有alt属性;

    3、img标签到alt属性之间存在未知的字符。

    

    嗯,我们先解决第一步,找出img标签,写出如下:/<img[^>]*>/g

    接下来这就是找到有alt属性的,写出如下: /<img[^>]*alt=('|")(.*?)\1.*>/g

    其实解决第二步并没有这么简单,都是碰到了很多问题后面才写出来的,包括img到alt这一段之间的字符如何处理,以及alt到闭合标签"/>"之间的情况,而且有些代码的img标签都没有写对正确的闭合标签,类似:<img src="***.jpg" >,所以写的正则表达式需要兼容这种错误的标签的情形。

    好了, 借用电竞三丑的一口头禅:可以,不跟你多BB。上代码:


	static void Main(string[] args)
        {
            try
            {
		//调用
                ReplaceAlt( 
                    "<\\s*img([^>]*?)alt=('|\")(.*?)\\2", 
                    RegexOptions.IgnoreCase | RegexOptions.Multiline, 
                    "<img$1alt='d.pan'", 
                    @"E:\MyJob\VS2012_Space\TestConsole\atesthtml.txt", 
                    @"E:\MyJob\VS2012_Space\TestConsole\output.txt"
               );

            }
            catch( Exception ex )
            {
            }
        }


        /// <summary>
        /// 对输入文件执行替换的正则表达式
        /// </summary>
        /// <param name="RegStr">正则表达式</param>
        /// <param name="OptObj">正则对象选项枚举</param>
        /// <param name="ReplaceStr">替换的表达式</param>
        /// <param name="InputPath">输入文件路径</param>
        /// <param name="OutputPath">输出文件路径</param>
        /// <returns></returns>
        public static bool ReplaceAlt( string RegStr, RegexOptions OptObj, string ReplaceStr, string InputPath , string OutputPath )
        {
            //输入文档,这里是为了摸拟
            StreamReader SR  = null; 

            //输出文档
            StreamWriter SW = null;

            try
            {
                SR = new System.IO.StreamReader( InputPath );

                SW = new System.IO.StreamWriter( OutputPath );

                string InputSt = SR.ReadToEnd();

                //正则表达式
                Regex ImgReg = new Regex( RegStr , OptObj );

                //执行替换
                SW.WriteLine( ImgReg.Replace( InputSt ,  ReplaceStr ) );

                return true;
            }
            catch( Exception Ex )
            {
                //异常处理
                return false;
            }
            finally
            {
                //关闭文件
                if( null != SR )
                {                 
                    SR.Close();
                    SR = null;
                }

                if( null != SW )
                {
                    SW.Close();
                    SW = null;
                }
            }
        }


这里需要解释一下,代码中使用的正则表达式是:<\s*img([^>]*?)alt=('|")(.*?)\2,

替换的是:<img$1alt='这里是我想要替换的值'。

因为我们只需要替换alt的值,所以alt属性之后的那一段字符串,我们不需要理会,因为alt的值有可能使用了单引号或者是双引号,我们这里使用分组(第二个分组)从而解决这种问题,但是为什么前面的img到alt属性之前也使用了一个分组(第一个分组)?这个分组是在替换时使用的,$1表示了上面正则表达式第一个分组的值,这样就可以完全的复制过来,只需要替换alt的值就可以了。


测试结果:

输入文本:



输出结果:



1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看REAdMe.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。 1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看READme.md或论文文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。 5、资源来自互联网采集,如有侵权,私聊博主删除。 6、可私信博主看论文后选择购买源代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值