实例需求:
待处理字符串:
西装,皮带,领带各10,西装20上衣30,西装40上衣50西装皮带领带各60,西装70上衣80,西装90上衣80,70西装60上衣,西装,皮带,领带各50,40西装,上衣、领带各30,西装皮带领带各20,皮带领带各10
处理规则:仅提取其中包含“xx各yy”的部分,如下图黄色部分所示。
大家肯定已经发现这个数据非常的不规范,分隔符即有逗号,也有顿号,需要提取的文字部分与前一段文字,有的是符号分隔,有的没有,这也增加了处理难度。
示例代码如下。
Sub Demo()
Dim strWord As String
Dim objRegExp As Object
Set objRegExp = CreateObject("VBSCRIPT.REGEXP")
strWord = Trim([A1])
With objRegExp
.Global = True
.Pattern = "(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)*((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+)"
.ignoreCase = True
Set objMatch = .Execute(strWord)
If objMatch.Count > 0 Then
For Each objMH In objMatch
Debug.Print objMH.submatches(0)
Next
End If
End With
Set objRegExp = Nothing
End Sub
运行代码结果如下。
西装,皮带,领带各10
西装皮带领带各60
西装,皮带,领带各50
上衣、领带各30
西装皮带领带各20
皮带领带各10
【代码解析】
第4行代码创建正则表达式对象。
第5行代码设置初始字符串变量。
第8行代码设置匹配模式。
第10行代码执行正则匹配。
如果匹配成功,第13~14行代码使用For…Next循环结构在立即窗口中输出匹配结果。
正则匹配模式比较长,分为两段来来讲解。
前半部分用于匹配无需提取的字符。
(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)*
正则表达式 | 说明 |
---|---|
\d+(?:上衣|西装|领带|皮带) | 匹配数字在前商品名称在后的字符 |
(?:上衣|西装|领带|皮带)\d+ | 匹配商品名称在前数字在后的字符 |
(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+) | 上述两种规则的字符串至少出现一次 |
[,]*? | 尾随一个全角逗号,或者没有 |
(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)* | 整个模式可以重复多次,也可以没有,即两段相邻字符均符合提取的模式 |
注意:此模式中多次使用非提取组?:
,便于最后读取匹配结果。
后半部分用于匹配需要提取的字符。
((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+)*
正则表达式 | 说明 |
---|---|
(?:西装|领带|皮带|上衣) | 匹配商品名称 |
[,、]? | 匹配商品名称之间的分隔符号,可以出现多次,也可以没有 |
(?:(?:西装|领带|皮带|上衣)[,、]?){2,} | 上述规则至少出现两次 |
各\d+ | 匹配“各+数字” |
((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+) | 整个模式为一个匹配组 |
有的读者可能会有疑问,既然后半部分匹配要提取的字符,为什么还需要前半段去匹配其他字符呢?利用正则测试工具就可以发现,如果只使用后半部分,就会导致部分匹配组不正确(请参见上图中标记黄色的两个提取组)。