关闭

perl总结(3)

标签: 正则表达式Perl总结
1725人阅读 评论(0) 收藏 举报
分类:

七、正则表达式

        这次对perl的正则表达式做一个总结。

        正则表达式是perl在文本处理时最为简洁方便的功能。可以迅速地查找/替换字符串,提取字符串中想要的部分做处理。一般都说正则表达式是一个描述模式(pattern)的字符串,而所谓模式,其实是我们需要寻找的特定的字符序列,由一对反斜杠包起来,例如/def/即模式def。


一、匹配操作符
        有两对匹配操作符=~和!~。

        =~检验匹配是否成功:$var =~ /abc/;若在该字符串中找到了该模式(abc),则返回true,不匹配则返回false。!~则相反。
        一个小例子:
        if ($sentence =~ /please/) {
                print ("Thank you for being polite!\n");
        }
        else {
                print ("That was not very polite!\n");
        


二、基本模式匹配知识
1、字符 + 
        +意味着一个或多个相同的字符(串),如:/ab+c/指abc、abbc、abbbc等。+在匹配字符的时候会尽可能匹配更多的相同字符,如/ad+/在字符串addddf中匹配的将是adddd,而不是ad或者add。
2、字符 [ ]和[^]
        [ ]中包含一组字符,在匹配时匹配其中的任一个,如/a[mnpqrst]c/将匹配a加m-t中的一个字符再加c的字符串。
它常与+联合使用:/a[bB]+c/匹配abc、aBc、abbc、aBbc、aBbBBBbc等。

        ^表示除括号内之外的所有字符,如:/a[^bB]+c/匹配a加非b/B字符加c的字符串。
3、字符 *和? 
        字符*用于匹配0个、1个或多个相同字符

        字符?匹配0个或1个该字符。

        例/ab*c/匹配ac、abc、abbbbc等;/ab?c/匹配ac或abc。

4、“.”字符 
        字符"."用于匹配除换行外的所有字符,最常与*一起使用。
5、转义字符 
        对于上述提到的+*?等具有特殊意义的字符,如果想在串中匹配包含其的模式,须在其前加斜线"\"。

        如:/\*+/中\*即表示字符*,/\\/表示斜杆。

6、匹配指定数目的字符 
        之前提到的"*",".","?"字符都是匹配不确定量的字符,我们可以使用{}指定所匹配字符出现的次数。如:/ab{1,3}c/匹配a和c之间有1到3个b的字符串;/ab{3}c/匹配abbbc;/ab{3,}c/匹配不少于3个b在a和c之间的字符串。

7、特殊转义字符 
        perl里有一些特殊的转移字符,能用于快速简洁地表示一些字符,如下表所示。

转义字符

描述

范围

\d

任意数字

[0-9]

\D

除数字外的任意字符

[^0-9]

\w

任意单词字符

[_0-9a-zA-Z]

\W

任意非单词字符

[^_0-9a-zA-Z]

\s

空白

[ \r\t\n\f]

\S

非空白

[^ \r\t\n\f]

        例:/[\da-z]/匹配任意数字或小写字母。
8、选择模式
        字符"|"用于指定两个或多个串中的一个用于匹配模式。如:/def|ghi/匹配defhi或deghi,要是想匹配def或者ghi怎么办呢,请加上括号,即/(def)|(ghi)/。

9、锚模式 

        这是perl正则表达式中一个很重要的东西,锚可以用来指定匹配的串在原带匹配串中的位置。具体的锚及其描述见下表:

描述

^ 或 \A

仅匹配串首

$ 或 \Z

仅匹配串尾

\b

匹配单词边界

\B

单词内部匹配

        例1:/^abc/只匹配以abc打头的字符串,/abc$/只匹配以abc结尾的字符串,结合起来的/^abc$/只匹配字符串abc。

        例2:检验变量名的类型:
                if ($varname =~ /^\$[A-Za-z][_0-9a-zA-Z]*$/) {
                        print ("$varname is a legal scalar variable\n");
                } elsif ($varname =~ /^@[A-Za-z][_0-9a-zA-Z]*$/) {
                        print ("$varname is a legal array variable\n");
                } elsif ($varname =~ /^[A-Za-z][_0-9a-zA-Z]*$/) {
                        print ("$varname is a legal file variable\n");
                } else {
                        print ("I don't understand what $varname is.\n");
                }
        例3:\b在单词边界匹配:/\bdef/匹配def和defghi等以def打头的单词,但不匹配abcdef。/def\b/匹配def和abcdef等以def结尾的单词,但不匹配defghi,/\babc\b/只匹配字符串abc。注意:/\babc/可匹配$abcghi,因为$并不被看作是单词的部分。
        例4:\B在单词内部匹配:/\Babc/匹配mabcdef等,但不匹配abc;/def\B/匹配defghi等;/\Bdef\B/匹配cdefg、abcdefghi等,但不匹配def,defghi,abcdef。
10、提取匹配的文本


三、模式匹配选项 

选项

描述

g

匹配所有可能的模式

i

忽略大小写

m

将串视为多行

o

只赋值一次

s

将串视为单行

x

忽略模式中的空白


1、匹配所有可能的模式(g选项) 
        @matches = "balata" =~ /.a/g; # now @matches = ("ba", "la", "ta")
        匹配的循环:
                while ("balata" =~ /.a/g) {
                        $match = $&;
                        print ("$match\n");
                }
        结果为:
                ba
                la
                ta
        当使用了选项g时,可用函数pos来控制下次匹配的偏移:
                $offset = pos($string);
                pos($string) = $newoffset;
2、忽略大小写(i选项)例 
                /de/i 匹配de,dE,De和DE。
3、将字符串看作多行(m选项) 
        在此情况下,^符号匹配字符串的起始或新的一行的起始;$符号匹配任意行的末尾。
4、只执行一次变量替换例 
   $var = 1;
   $line = <STDIN>;
   while ($var < 10) { 
     $result = $line =~ /$var/o;
     $line = <STDIN>; 
     $var++;
   }
        每次均匹配/1/。
5、将字符串看作单行例 
        /a.*bc/s匹配字符串axxxxx \nxxxxbc,但/a.*bc/则不匹配该字符串。
6、在模式中忽略空格 
        /\d{2} ([\W]) \d{2} \1 \d{2}/x等价于/\d{2}([\W])\d{2}\1\d{2}/。


四、替换操作符 
        上面提到的都是匹配字符串的方法和方式,perl可以在匹配到相应的模式后对串进行处理,其中非常强大的就是替换操作符。其语法为s/pattern/replacement/,其效果为将字符串中与pattern匹配的部分换成replacement。如:
                $string = "abc123def";
                $string =~ s/123/456/; # now $string = "abc456def";
                在替换部分可使用模式次序变量$n,如s/(\d+)/[$1]/,但在替换部分不支持模式的特殊字符,如{},*,+等,如s/abc/[def]/将把abc替换为[def]。
        替换操作符的选项如下表:

选项

描述

g

改变模式中的所有匹配

i

忽略模式中的大小写

e

替换字符串作为表达式

m

将待匹配串视为多行

o

仅赋值一次

s

将待匹配串视为单行

x

忽略模式中的空白

注:e选项把替换部分的字符串看作表达式,在替换之前先计算其值,如:
     $string = "0abc1";
     $string =~ s/[a-zA-Z]+/$& x 2/e; # now $string = "0abcabc1"


五、翻译操作符 
        翻译操作符是perl的另一种替换方式,语法如:tr/string1/string2/。同样,string2为替换部分,但其效果是把string1中的第一个字符替换为string2中的第一个字符,把string1中的第二个字符替换为string2中的第二个字符,依此类推。如:
                $string = "abcdefghicba";
                $string =~ tr/abc/def/; # now string = "defdefghifed"
        当string1比string2长时,其多余字符替换为string2的最后一个字符;当string1中同一个字符出现多次时,将使用第一个替换字符。
        翻译操作符的选项如下:

选项

描述

c

翻译所有未指定字符

d

删除所有指定字符

s

把多个相同的输出字符缩成一个

        如$string =~ tr/\d/ /c;把所有非数字字符替换为空格。$string =~ tr/\t //d;删除tab和空格;  $string =~ tr/0-9/ /cs;把数字间的其它字符替换为一个空格。


六、扩展模式匹配 
        PERL支持PERL4和标准UNIX模式匹配操作所没有的一些模式匹配能力。其语法为:(?<c>pattern),其中c是一个字符,pattern是起作用的模式或子模式。
1、不存贮括号内的匹配内容 
        在PERL的模式中,括号内的子模式将存贮在内存中,此功能即取消存贮该括号内的匹配内容,如/(?:a|b|c)(d|e)f\1/中的\1表示已匹配的d或e,而不是a或b或c。
2、内嵌模式选项 
        通常模式选项置于其后,有四个选项:i、m、s、x可以内嵌使用,语法为:/(?option)pattern/,等价于/pattern/option。
3、肯定的和否定的预见匹配
        肯定的预见匹配语法为/pattern(?=string)/,其意义为匹配后面为string的模式,相反的,(?!string)意义为匹配后面非string的模式,如:
                $string = "25abc8";
                $string =~ /abc(?=[0-9])/; 
                $matched = $&; # $&为已匹配的模式,此处为abc,而不是abc8
4、模式注释 
        PERL5中可以在模式中用?#来加注释,如:
        if ($string =~ /(?i)[a-z]{2,3}(?# match two or three alphabetic characters)/ {
                ...
        }

0
0
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

Perl入门(八)Perl的复杂数据结构

本文主要介绍Perl的复杂数据结构,包括: 二维数组哈希结构及复杂哈希结构 二维数组 Perl的数组由一对圆括号及用逗号分隔的元素组成(当然还有其他的声明方式)。 如:@array = ("app...
  • sunshoupo211
  • sunshoupo211
  • 2014-06-23 14:44
  • 1791

Perl基础教程:复杂数据结构

Perl Data Structures Cookbook Perl数据结构百科 一、描述 The single feature most sorely lacking in the Per...
  • fireroll
  • fireroll
  • 2013-04-02 12:24
  • 1438

perl中sprintf函数的使用方法

对于某些字符串,需要输入为特定的格式,通过sprintf可以很方便的完成,不需要专门进行其他处理。 perl中的sprintf的用法如下: 字符串变成相应的数字eval sprint...
  • AnneQiQi
  • AnneQiQi
  • 2016-10-20 20:20
  • 1768

统计top500的过程总结(perl,shell,java)【3-java】

三、java相关      这里shell程序调用java程序的原因是:perl脚本生成的excel文件,其中的词条URL无法解码为人可以识别的汉字(与linux系统编码相关的,不能改系统编码,所以...
  • JkunZhang
  • JkunZhang
  • 2011-11-29 17:01
  • 1899

perl学习笔记-----------------------(3)

1.Perl的标量代表的是单数,列表和数组代表的是复数 2.列表是标量的有序集、数组是包含列表的变量。 3.列表是指数据,而数组是其变量名。 4.可以有一些值(列表)但不属于数组;但每一个数组标量都有...
  • henni_719
  • henni_719
  • 2016-09-28 09:46
  • 172

Perl Learning (3_1) —— 列表与数组

如果说Perl的标量代表的是单数(singular),那么在Perl里代表复数(plural)的就是列表和数组。
  • delphiwcdj
  • delphiwcdj
  • 2011-01-19 23:09
  • 1235

用Perl编写读取POP3邮箱的应用程序

本文将讨论开发人员利用Perl特定的能力编写POP3电子邮件应用程序。   像微软的Outlook和Mozilla的雷鸟(Thunderbird)这样的电子邮件客户端程序能够让收发电子邮件变得极其简...
  • gong0zu
  • gong0zu
  • 2014-04-04 16:21
  • 467

perl novel可变剪接识别(3)

好吧,该到最后的时刻了,识别novel可变剪接的类型,首先要在原理上判断类型的情况,把类型画出来比较好一些: 以上即为大致的分类,不过有两点要说明的:intron retained 1用toph...
  • skenoy
  • skenoy
  • 2013-04-03 14:33
  • 910

Perl 内部结构详解 -- PerlGuts Illustrated (3 AV)

AV 数组,结构如图所示: 字段ALLOC 指向实际分配的SV 数组的开头地址。 字段ARRAY 指向数组本身的开头地址,由于数组的改变,这个地址比起实际分配的地址,可能...
  • USTBHacker
  • USTBHacker
  • 2012-08-01 16:47
  • 1589

perl-DBD-MySQL-4.013-3.el6.x86_64.rpm

  • 2014-04-24 10:50
  • 134KB
  • 下载
    个人资料
    • 访问:1989565次
    • 积分:11599
    • 等级:
    • 排名:第1514名
    • 原创:102篇
    • 转载:1篇
    • 译文:0篇
    • 评论:758条
    个人介绍与联系方式

    寒小阳

    海淀区『明光村计算机职业技能学校』烟酒僧毕业。有几年机器学习/数据挖掘工作经验。大厂打过杂,做过几个NLP、推荐系统、点击率预估、深度学习图像分类/检索相关项目。欢迎联系和交流。


    EMAIL:hanxiaoyang.ml@gmail.com 

    QQ: 3127303203


    数据科学沙龙QQ群

    2000人群169492443(已满)
    2000人群564538990(已满)
    2000人群285273721
    不定期有机器学习/数据科学公开课和线上讨论


    其余机器学习QQ群

    439183906(已满), 373038809(已满),194141072(已满)

    相关资料推荐
    七月在线
    博客专栏