Perl正则表达式学习笔记

最新推荐文章于 2021-02-05 16:45:45 发布
WEL测试
最新推荐文章于 2021-02-05 16:45:45 发布
阅读量303
点赞数
分类专栏： # Perl学习笔记文章标签： Perl 正则表达式
本文为WEL测试原创文章，未经博主允许不得转载。
本文链接：https://blog.csdn.net/henni_719/article/details/102553749
版权
Perl学习笔记专栏收录该内容
21 篇文章 1 订阅
订阅专栏
#!/usr/bin/perl -w
print "\n----------------------Perl Regular Expression----------------------\n";
print "\n----------------------Perl Regular Expression Demo1----------------\n";
#下面例子正在匹配HTML<A>或<IMG>标记和对应的结束标记</A>或</IMG>之间的所有文本；
$text="<A>Here is an anchor.</A>";
if($text=~ /<IMG|A>/i){
print "Found an image or anchor tag."."\n";
}
#6.1使用正则表达式
#6.1.1使用正则表达式时，需要使用两个字符串处理运算符：模式匹配运算符m//和替换运算符s///。
#     转换运算符：tr///


#--------------------------------------------------------m//运算符---------------------------------------------------------------------
#6.1.1.1 m//运算符
#  默认情况下，m//运算符尝试匹配指定的模式和$_中的文本。
#  例如：在用户输入的文本中查找字符串exit（第二个反斜线之后的i修饰符是的模式匹配不区分大小写）。如果在$_中找到exit，则m//返回真；
# print "\n---------------------------(m//) Demo------------------------\n";
# print "Enter:";
# while(<>){
	# if(m/exit/i){exit;}
# }

#=~:运算符指定m//运算符查找的字符串。在这里，指定运算符应该查找标量$line,而不是$_。这段代码没有改变$line的值：
# print "\n---------------------------(m//) and(=~) Demo------------------------\n";
# print "Enter:";
# while($line=<>){
# if($line=~m/exit/i){exit;}
# }

#!~:运算符对=~的返回值取反。
# print "\n---------------------------(m//) and(=~) (!) Demo------------------------\n";
# print "Enter:";
# while($line=<>){
# if(!($line=~m/exit/i)){exit;}
# }

#m//运算符使用频繁，可以忽略掉m部分，多数程序使用如下快捷方式：
# print "\n---------------------------(m//) and(=~) (!) Demo------------------------\n";
# print "Enter:";
# while($line=<>){
# if($line=~/exit/i){exit;}
# }

#与其他perl运算符一样，如果你不喜欢斜线，可以使用自己的定界符，在这种情况下必须使用m；
# print "\n---------------------------User Defined Limite Notation------------------------\n";
# print "Enter:";
# while($line=<>){
# if($line=~ m{exit}i){exit;}
# }

#PS:在标量上下文中，m//返回真或者假；在表的上下文中，如果使用“g”修饰符来进行全局查找，则m//返回所有匹配值的列表。
#例如，创建一个数组@a，它将容纳$_中的所有小写单词；
print "\n-----Use 'g ' to find list match value------\n";
$_="Here is the text";
@a=m/\b[^A-Z]+\b/g;
print "@a";
print "\n-----END------\n";
#对上面子程序解析如下：
#\b:匹配单词范围
#[^A-Z]:匹配除了大写字母以外的任何字符；
#+：确保可以找到多个匹配值；
#g修饰符：说明是全局查找，全局查找可以查找所有连续的匹配值。
#---------------------------------------------------------------------------------------------------------------------------

#----------------------------------------------------s///运算符--------------------------------------------------------------
#6.1.1.2 s///运算符
#   s///运算符可以用一个字符串替换另一个字符串。
#	例如：用字符串old替换了字符串young
print "\n--------------------------(s///) USED-----------------------------\n";
$text_young="Pretty young.";
print "$text_young\n";
$text_young=~ s/young/old/;
print "$text_young\n";
print "\n------------------------END (s///) USED---------------------------\n";

#PS:m//和s///是从左边开始匹配。
#-------------------------------------------------------------------------------------------------------------------------------

#----------------------------------------------------tr///运算符--------------------------------------------------------------
$text= "His name is Tom.";
$text=~tr/o/j/;
print $text ."\n";
print "\n------------------------END (tr///) USED---------------------------\n";
#-----------------------------------------------------------------------------------------------------------------------------

#正则表达式:\b([A-Za-z]+)\b在文本字符串中匹配单词：
print "\n--------------------------(\b([A-Za-z]+)\b) USED-----------------------------\n";
$text="Pretty young.";
print "$text_young\n";
$text=~ /\b([A-Za-z]+)\b/;
print "$1\n";
print "\n------------------------END (\b([A-Za-z]+)\b) USED---------------------------\n";
#例子解析：
#表达式(\b([A-Za-z]+)\b)包含分组元字符、\b边界元字符和字符类[A-Za-z](匹配所有的大写和小写字母)和量词+,它指定在已指定的字符类中查找一个或多个字符。
#perl记住一个匹配，前面的代码称之为$1,并打印字符串中的第一个单词。

#在正则表达式中，任何单个字符都与自身匹配，除非它是具有特殊含义的元字符（例如$和^）
# print "\n--------------------------('$ and ^') USED-----------------------------\n";
# while(<>){
# if(m/^exit$/i){
  # {exit;}
# }}
# print "\n------------------------END ('$ and ^') USED---------------------------\n";

#perl中特殊字符：
#	\077-------------8进制字符
#	\a-------------报警（铃声）
#	\c[-------------控制字符
#	\D-------------匹配非数字字符
#	\d-------------匹配数字字符
#	\E-------------启用模式元字符
#	\e-------------转义
#	\f-------------换页
#	\L-------------小写，直至遇到\E
#	\l-------------小写下一个字符
#	\n-------------换行
#	\Q-------------引用（禁止）模式元字符，直至遇到\E
#	\r-------------回车
#	\S-------------匹配非空白字符
#	\s-------------匹配空白字符
#	\t-------------制表位
#	\U-------------大写，直至遇到\E
#	\u-------------大写下一个字符
#	\W-------------匹配非单词字符
#	\w-------------匹配一个单词字符（字母数字字符和“_”）
#	\xl-------------16进制字符

#PS：\w仅匹配一个字母数字字符，而不是单词，为了匹配单词，需要这样使用\w+（匹配一个或多个）：
print "\n--------------------------(\w+) USED-----------------------------\n";
$text="Pretty young.";
print "$text_young\n";
$text=~ s/\w+/There/;
print "$text\n";
print "\n------------------------END (\w+) USED---------------------------\n";

#匹配任何字符：‘.’。这个字符可以匹配任意字符，但换行符除外（但是如果与m//和s///一起使用s字符修饰符，句点字符和换行匹配）
#用*替换字符串中的所有字符，g修饰符可以使替换操作在全局范围内进行。
print "\n--------------------------(.) USED-----------------------------\n";
$text="Pretty young.";
print "$text\n";
$text=~ s/./*/g;
print "$text\n";
print "\n------------------------END (.) USED---------------------------\n";

#诸如句点这样的字符在正则表达式中称为元字符（元字符包括：\|()[{^$*+?.）,仅需在它们前面加入反斜线，就可以确保按照字面意义解释，而不是作为元字符解释。
#‘^’:匹配行首，让用户知道不应该用句点开始的句子。
print "\n--------------------------(^) USED-----------------------------\n";
$text=".Pretty young.";
print "$text\n";
if($text=~ m/^\./){
print "Should't start a sentence with a period!";
}
print "\n------------------------END (^) USED---------------------------\n";

#从C代码中删除注释，方法是通过使用*量词和.来代表任意数量的类似字符，以匹配定界符/*和*/之间的所有字符。
print "\n--------------------------(* and .) USED-----------------------------\n";
$text="count++;/* Increment count*/";
$text=~s/\/\*.*\*\///g;
#或者使用
#$text=~s|\/\*.*\*\/||g;
print $text;
print "\n------------------------END (* and .) USED---------------------------\n";

#可以使用多个字符组成字符类，而那个类将匹配其中的任意字符。字符类要包含在[字符类]中。也可以使用-字符指定字符范围
print "\n--------------------------([zi fu yuan zu ]) USED-----------------------------\n";
$text="count++;/* Increment count*/";
if($text=~/[couIite]/){
	print "Yep,we got vowels.\n";
}
print "\n------------------------END ([zi fu yuan zu ]) USED---------------------------\n";

#如果使用^作为字符类中的第一个字符，则那个字符类将匹配其中没有的任何字符，在下面的例子，仅匹配了既不是字母也不是空白的字符：
print "\n--------------------------([^A-Za-z\s]+) USED-----------------------------\n";
$text="count 200 Increment 000 count ";
$text=~s/[^A-Za-z\s]+/521/;
print $text;
print "\n------------------------END ([^A-Za-z\s]+) USED---------------------------\n";

#提取$_中的全部小写的单词，并将它们存储在新数组@a中：
print "\n--------------------------(\b[^A-Z]+\b) USED-----------------------------\n";
$_="Here is the text";
@a=~m/\b[^A-Z]+\b/g;
print @a;
print "\n--------------------------end  (\b[^A-Z]+\b) USED-----------------------------\n";

#PS:使用\b匹配单词边界
#通过将特定字符或者字符序列作为正则表达式中的文字或者字符类，就可以匹配特定字符或者字符序列。
#多重匹配模式：可以为模式指定一系列的选项，并用|分开个选项。例如，可以这样检查用户输入是否为"exit","quit","stop"
# print "\n--------------------------(|) USED-----------------------------\n";
# print "Enter exit|quit|stop:";
# while(<>){
	# if(m/exit|quit|stop/){exit;}
# }
# print "\n--------------------------END (|) USED--------------------------\n";

# print "\n--------------------------(|) USED-----------------------------\n";
# print "Enter exit|quit|stop:";
# while(<>){
	# if(m/^(exit|quit|stop)$/){exit;}
# }
# print "\n--------------------------END (|) USED--------------------------\n";
#PS:--------------------------------------------------------------------------------------------
#perl中的量词：
#		*-----------------匹配0或多次
#		+-----------------匹配1或多次
#		?-----------------匹配0或1次
#		{n}-----------------匹配n次
#		{n,}-----------------匹配至少n次
#		{n,m}-----------------匹配至少n次，至多匹配m次
#-----------------------------------------------------------------------------------------------
#perl中的合法断言：
#		^-----------------匹配行首
#		+-----------------匹配行尾（或者末尾前的新行）
#		\A-----------------仅匹配字符串开头
#		\B-----------------匹配非单词边界
#		\b-----------------匹配单词边界
#		\G-----------------仅匹配前一个m//g剩余的内容（仅仅能和/g一起使用）
#		\Z-----------------仅仅匹配字符串的末尾，或者末尾前的新行
#		\z-----------------仅仅匹配字符串的末尾
#		(?=EXPR)-----------如果EXPR可以匹配下一个，则进行匹配
#		(?!EXPR)-----------如果EXPR不能匹配下一个，则进行匹配
#		(?<=EXPR)----------如果EXPR可以匹配前一个，则进行匹配
#		(?<!EXPR)----------如果EXPR不能匹配前一个，则进行匹配
#--------------------------------------------------------------------------------------------------
#确保用户输入的所有行至少具有20个字符：
# print "\n--------------------------(.{20,}) USED-----------------------------\n";
# print "Enter:";
# while(<>){
	# if(!m/.{20,}/){
	# print "Please type longer line!";
	# }
# }
# print "\n--------------------------END (.{20,}) USED--------------------------\n";

#默认情况下，量词非常贪婪的，这意味着通过创建从当前查找位置开始的合法匹配，它门将返回找到最长的匹配值。
#创建正则表达式：引用前一次匹配的向后引用
#在相同的表达式中引用前面的匹配：通过反斜线以及数字\1，\2，\3等，来引用相同模式中以前的匹配值。表达式\1代表第一次匹配，\2代表第二次匹配，依次类推。
#例如，处理html，并需要确保正在匹配从开始到相应的结束表姐之间的文本，如<A>到<\A>:
# print "\n--------------------------('\1') USED-----------------------------\n";
# $text="<A>Here is an anchor.<\A>";
# if($text=~/<(IMG|A)>[\w\s\.]+<\/\1>/i){
# print "Found an image or anchor tag.";
# }
# print "\n--------------------------END ('\1') USED--------------------------\n";

#在数字的前面加入$（$1，$2，$3等）而在括号内引用模式之外的匹配。
#使用向后引用$1而将单词转换为缩写形式：
# print "\n--------------------------($1) USED-----------------------------\n";
# $text="<A>Here is an anchor.<\A>";
# if($text=~/<(IMG|A)>[\w\s\.]+<\/\1>/i){
# print "Found an image or anchor tag.";
# }
# print "\n--------------------------END ($1) USED--------------------------\n";

#Perl的特殊变量$&(引用前一个匹配),$'(引用前一次匹配之后的字符串),$`(引用前一次匹配之前的字符串)。$+引用括号内的最后一次模式匹配

#正则表达式扩展：
#(?#text)---------------------------------------指出是注释。将忽略这个表达式内的文本。
#(?;pattern)或者(?imsx-imsx:pattern)------------用（和）对子表达式分组，而不是向后引用。
#(?=EXPR)---------------------------------------正预测断言。如果EXPR可以匹配下一个，则进行匹配。
#(?!EXPR)---------------------------------------负向后断言，如果EXPR可以匹配上一个，则进行匹配。
#(?<=EXPR)--------------------------------------正向后断言，如果EXPR恰好匹配前一个，则进行匹配。
#(?<!EXPR)--------------------------------------负向后断言，如果EXPR不能匹配前一个，则进行匹配。
#(?{code})--------------------------------------计算Perl代码0的宽度断言。仅在使用use re ‘eval’ pragma 时才匹配。
#(?gtpattern)-----------------------------------匹配子字符串，如果定位在给定的位置，也将匹配这个子字符串。
#(?(condition)yes-pattern|no-pattern)或(?(condition)yes-pattern)------------指定条件表达式。
#(?ismsx-imsx)----------------------------------指定一个或者多个嵌入的模式匹配修饰符。
#------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
#------------------------------------------------------------Deno--------------------------------------------------
 print "\n------------------('$1' '$2' $3 and (?#text)') USED----------------\n";
$text="I see you";
$text=~ s/^(?# 1st)(\w+) *(?# 2nd)(\w+) *(?# 3rd)(\w+)/$3 $2 $1/;
print $text;
print "\n-----------------END ('$1 $2 $3 and (?#text)') USED-------------------\n";

#预测断言：(?=...)和(?!...)
#回想断言：(?<=EXPR)和(?<!EXPR)
#断言不是匹配本身的组成部分。
#----------------------------------------------------Demo----------------------------------------------------------
print "\n------------------------(?=EXPR) USED-----------------------------\n";
$_="I am going to Paris,London,and Vienna.";
print "Found all three ."if/(?=.*Vienna)(?=.*Paris)(?=.*London)/;
print "\n----------------------(?=EXPR) END-------------------------------\n";
#----------------------------------------------------Demo----------------------------------------------------------

# print "\n------------------------(m/^(exit|quit|stop)$/) USED-----------------------------\n";
# while(<>){
# if(m/^(exit|quit|stop)$/){
# print "You typed:$1\n";
# exit;
# }else{
# print "Nothing stored.\n";
# }
# }
# print "\n----------------------(m/^(exit|quit|stop)$/) END-------------------------------\n";

#----------------------------------------------------Demo----------------------------------------------------------
# print "\n------------------------(m/^(?:exit|quit|stop)/) USED-----------------------------\n";
# while(<>){
# if(m/^(?:exit|quit|stop)$/){
# if($1){
# print "You typed: $1\n";
# exit;
# }else{
# print "Nothing stored.\n";
# }
# }
# }
# print "\n----------------------(m/^(exit|quit|stop)/) END-------------------------------\n";

#ps:与m//和s///一起使用修饰符
#e--------------------------------指出s///的右边是要计算的代码
#ee-------------------------------指出s///的右边要计算的字符窜并作为代码运行，然后再次计算它的返回值
#g--------------------------------在全局范围内执行所有可能的操作
#gc-------------------------------在匹配失败之后，不要重复查找位置
#i--------------------------------忽略字母大小写
#m--------------------------------让^和$匹配嵌入的\n字母
#o--------------------------------仅对模式进行一次编译
#s--------------------------------让、字符匹配新行
#x--------------------------------忽略模式中的空白，并允许进行注释
#--------------------------------------------------Demo----------------------------------------------------------
print "\n---------------------use(m//g) start----------------------\n";
$text="Here is the texxxxxxxt";
while($text=~m/x/g){
print "Found another x.\n";
}
print "\n---------------------use(m//g) end----------------------\n";
#PS:每次在标量上下文中使用m//g时，它将记住上一次查找结束的位置，并从那个位置开始。
#--------------------------------------------------Demo----------------------------------------------------------
#查找由4个字母构成的单词
print "\n---------------------use(m/\w{4}\b/g) start----------------------\n";
@a=("Here is the test"=~m/\w{4}\b/g);
print @a;
print "\n---------------------use(m/\w{4}\b/g) end----------------------\n";
#--------------------------------------------------Demo----------------------------------------------------------
#用s///g将字符串中的所有匹配值替换：
print "\n---------------------use(s/./*/g) start----------------------\n";
$a="Here is the test";
$a=~s/./*/g;
print $a;
print "\n---------------------use(s/./*/g) end----------------------\n";

#用tr///转换字符串
#格式：tr/LIST/LIST/
#		y/LIST/LIST/
#--------------------------------------------------Demo----------------------------------------------------------
#使用这个运算符进行文本替换，并用第2个列表中的相应字符来替换第一个列表中的所有字符。下面例子使用字母o替换字符串中的i：
print "\n---------------------use(tr/i/o/) start----------------------\n";
$a="Here is the test";
$a=~tr/i/o/;
print $a;
print "\n---------------------use(tr/i/o/) end----------------------\n";
#--------------------------------------------------Demo----------------------------------------------------------
#指定处理字符范围，下面例子将字符串转换为大写形式：
print "\n---------------------use(tr/a-z/A-Z/) start----------------------\n";
$a="Here is the test";
$a=~tr/a-z/A-Z/;
print $a;
print "\n---------------------use(tr/a-z/A-Z/) end----------------------\n";
#--------------------------------------------------Demo----------------------------------------------------------
#tr///运算符返回转换次数，下面例子：统计$_中字母x出现的次数，而不影响字符串：
print "\n---------------------use(tr/x/x/) start----------------------\n";
$text="Here is six xxxxxx";
$xcount=($text=~tr/x/x/);
print $xcount."\n";
print $text."\n";
print "\n---------------------use(tr/x/x/) end----------------------\n";

#和tr///一起使用修饰符：
#perl中可以和tr///一起使用：
# c------------------------对查找列表求补
# d-----------------------删除没有替换的字符
# s-----------------------删除重复的替换字符

#匹配单词：
#--------------------------------------------------Demo----------------------------------------------------------
#匹配单词：
print "\n---------------------use(/(\S+)/) start----------------------\n";
$text="Here is six xxxxxx";
$text=~ m/(\S+)/;
print $text;
print "\n---------------------use(/(\S+)/) end----------------------\n";
#--------------------------------------------------Demo----------------------------------------------------------
#匹配单词：\w匹配字母数字和下划线“_”
print "\n---------------------use(/(\w+)/) start----------------------\n";
$text="Here is six xxxxxx";
$text=~ m/(\w+)/;
print $text;
print "\n---------------------use(/(\w+)/) end----------------------\n";
WEL测试
关注
0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Perl正则表达式学习笔记

#!/usr/bin/perl -wprint "\n----------------------Perl Regular Expression----------------------\n";print "\n----------------------Perl Regular Expression Demo1----------------\n";#下面例子正在匹配HTML<A...
复制链接

扫一扫