最近用lua在写工具,用到比较多lua模式匹配的东西,遇到挺多新鲜的东西,所以记录一下,希望也能给大伙一些帮助吧~
我们知道string非常强大
string.find(字符串查找)
string.gsub(全局字符串替换)
string.gfind(全局字符串查找)
string.gmatch(返回查找到字符串的迭代器)
等等。。。
模式匹配基本都用得上了
这些函数的用法我就不详细说了,大伙估计都知道的,就直接奔模式匹配主题
单个字符(除^$()%.[]*+-?外): 与该字符自身配对
.(点): 与任何字符配对
%a: 与任何字母配对
%c: 与任何控制符配对(例如\n)
%d: 与任何数字配对
%l: 与任何小写字母配对
%p: 与任何标点(punctuation)配对
%s: 与空白字符配对
%u: 与任何大写字母配对
%w: 与任何字母/数字配对
%x: 与任何十六进制数配对
%z: 与任何代表0的字符配对
%x(此处x是非字母非数字字符): 与字符x配对. 主要用来处理表达式中有功能的字符(^$()%.[]*+-?)的配对问题, 例如%%与%配对
[数个字符类]: 与任何[]中包含的字符类配对. 例如[%w_]与任何字母/数字, 或下划线符号(_)配对
[^数个字符类]: 与任何不包含在[]中的字符类配对. 例如[^%s]与任何非空白字符配对
重点来介绍一下修饰符,可以使用修饰符来修饰模式增强模式的表达能力,Lua中的模式修饰符有四个:
+ 匹配前一字符1次或多次
* 匹配前一字符0次或多次
- 匹配前一字符0次或多次
? 匹配前一字符0次或1次
接下来我们将一个个去解析这四个修饰符是啥情况
+:匹配一个或多个字符,总是进行最长的匹配。比如,模式串 '%a+' 匹配一个或多个字母或者一个单词:
print(string.gsub("a, b c; defg", "%a+", "LM"))
输出了一个字符串,和一个数字,后面的数字表示替换了几次
看输出,那就是匹配到了4次,第一次是a,将LM替换a,然后第二次是b,b前面是一个,一个空格都不符合%a+,+是匹配一次或多次,所以第二次匹配到的是b,第三次是c,这里要注意了,b和c之间有个空格,如果没有空格那bc将同时被匹配,后面就是例子,第四次匹配就匹配到了defg而不是单个的d了,因为+是匹配一次或多次,找到了d符合,继续找下一个e也符合,再继续找,找到不符合为止,所以就是defg,一个或多个的意思就是以d为起点,符合1个,e为第二个元素,符合2个,f为第三个元素符合3个。。以此类推,这么解释应该就明白修饰符+ 匹配前一字符1次或多次的意思了吧,还不懂我们继续往下走,跟其他修饰符比较,或许能更清晰一点
* 匹配前一字符0次或多次
看清楚了,匹配0次或多次,跟+比较,*多了0次的条件,我们拿同样的字符串走一把试试
print(string.gsub("a, b c; defg", "%a*", "LM"))
咦,怎么变成6个了,疑惑了吧,我之前就是在琢磨这个问题,下面是我琢磨出来的东西
先分开几步
local str = "a, b c; defg"
print(string.find(str, "%a*"))
print(string.sub(str,string.find(str, "%a*")))
这个大伙应该都明白了吧,第一个匹配到的是a这个没毛病,然后我们把a去掉,模拟第二步操作
local str = ", b c; defg"
print(string.find(str, "%a*"))
print(string.sub(str,string.find(str, "%a*")))
print(string.sub(str,string.find(str, "%a*"))=="")
,开头,find出来的是1,0,这样子截出来的是一个空字符串,意思就是说并没有往下找到b而是在“, ”之前就匹配了一个空字符串,至于为什么是空字符串,这就得看string.find的内部是怎么实现的了,我也还没研究到这么深,希望有朋友知道的,指导指导,好了,这个空字符串就被“LM”替换
回到print(string.gsub("a, b c; defg", "%a*", "LM")),这样下来第三次才到“b”,再到“c”,然后又有一个“; ”分号加个空格,继续匹配到一个空字符串,最后再匹配到defg,所以就输出了
,这样分析,大伙明白一点了吧
再看看- 匹配前一字符0次或多次
这个就直接用
local str = "a"
print(string.gsub(str, "%a-", "LM"))这个例子
输出了
大伙也奇了怪了吧,一个字符a被替换了2次?
其实原因是跟上一个的差不多
匹配前一字符0次或多次,0次这个在做怪
换这个来看
local str = "a"
print(string.find(str, "%a-"))
print(string.sub(str,string.find(str, "%a-")))
print(string.sub(str,string.find(str, "%a-"))=="")
匹配到又是1,0,是一个空字符串,后面又会匹配到另一个空字符串,所以被替换了2次,用“a-”是匹配不到自己的
'?' 匹配一个字符0次或1次。
举个例子,假定我们想在一段文本内查找一个整数,整数可能带有正负号。模式 '[+-]?%d+' 符合我们的要求,它可以匹配像 "-12"、"23" 和 "+1009" 等数字。'[+-]' 是一个匹配 '+' 或者 '-' 的字符类;
大概就这样吧,如果有什么问题,或者不对的,请大家一定要留言指导,这是我自己的见解而已,请多多指教