VBA之正则表达式(24)-- 杂乱数据提取

57 篇文章 2 订阅
49 篇文章 18 订阅

实例需求:
待处理字符串:

西装,皮带,领带各10,西装20上衣30,西装40上衣50西装皮带领带各60,西装70上衣80,西装90上衣80,70西装60上衣,西装,皮带,领带各50,40西装,上衣、领带各30,西装皮带领带各20,皮带领带各10

处理规则:仅提取其中包含“xx各yy”的部分,如下图黄色部分所示。

在这里插入图片描述

大家肯定已经发现这个数据非常的不规范,分隔符即有逗号,也有顿号,需要提取的文字部分与前一段文字,有的是符号分隔,有的没有,这也增加了处理难度。

示例代码如下。

Sub Demo()
    Dim strWord As String
    Dim objRegExp As Object
    Set objRegExp = CreateObject("VBSCRIPT.REGEXP")
    strWord = Trim([A1])
    With objRegExp
        .Global = True
        .Pattern = "(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)*((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+)"
        .ignoreCase = True
        Set objMatch = .Execute(strWord)
        If objMatch.Count > 0 Then
            For Each objMH In objMatch
                Debug.Print objMH.submatches(0)
            Next
        End If
    End With
    Set objRegExp = Nothing
End Sub

运行代码结果如下。

西装,皮带,领带各10
西装皮带领带各60
西装,皮带,领带各50
上衣、领带各30
西装皮带领带各20
皮带领带各10

【代码解析】
第4行代码创建正则表达式对象。
第5行代码设置初始字符串变量。
第8行代码设置匹配模式。
第10行代码执行正则匹配。
如果匹配成功,第13~14行代码使用For…Next循环结构在立即窗口中输出匹配结果。


正则匹配模式比较长,分为两段来来讲解。
前半部分用于匹配无需提取的字符。

(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)*

在这里插入图片描述

正则表达式说明
\d+(?:上衣|西装|领带|皮带)匹配数字在前商品名称在后的字符
(?:上衣|西装|领带|皮带)\d+匹配商品名称在前数字在后的字符
(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)上述两种规则的字符串至少出现一次
[,]*?尾随一个全角逗号,或者没有
(?:(?:\d+(?:上衣|西装|领带|皮带)|(?:上衣|西装|领带|皮带)\d+)[,]*?)*整个模式可以重复多次,也可以没有,即两段相邻字符均符合提取的模式

注意:此模式中多次使用非提取组?:,便于最后读取匹配结果。


后半部分用于匹配需要提取的字符。

((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+)*

在这里插入图片描述

正则表达式说明
(?:西装|领带|皮带|上衣)匹配商品名称
[,、]?匹配商品名称之间的分隔符号,可以出现多次,也可以没有
(?:(?:西装|领带|皮带|上衣)[,、]?){2,}上述规则至少出现两次
各\d+匹配“各+数字”
((?:(?:西装|领带|皮带|上衣)[,、]?){2,}各\d+)整个模式为一个匹配组

有的读者可能会有疑问,既然后半部分匹配要提取的字符,为什么还需要前半段去匹配其他字符呢?利用正则测试工具就可以发现,如果只使用后半部分,就会导致部分匹配组不正确(请参见上图中标记黄色的两个提取组)。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值