1.问题由来
在上一篇博客中,我提到用户姓名首字母组合,用来模糊查询,对于多音字的处理方法。比如,有一个人叫“曾茜”,生成一个音序为"CQ,CX,ZQ,ZX"。这样,无论用户怎么读,都能查询到。
汉字 | 查询到的首字母 |
曾 | C,Z |
茜 | Q,X |
问题就来了,如何通过查询到的"C,Z"和"Q,X"得到"CQ,CX,ZQ,ZX"。刚开始我以为很简单、很容易。后来发现问题原比想象的难,到网上搜才意识到这是笛卡尔积的问题。PS:论数学基础对于编程的重要性!!!
2.什么是笛卡尔积
笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尔积(Cartesian product),又称直积,表示为X × Y,第一个对象是X的成员而第二个对象是Y的,所有可能有序对的其中一个成员。
笛卡尔积的符号化为:
A×B={(x,y)|x∈A∧y∈B}
例如,A={a,b}, B={0,1,2},则
A×B={(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}
3.VBA编程的难处
不同于python,VBA没有列表、集合等数据类型,对子集的切片等操作,因此,我个人感觉要实现起来比python要难一些。
4.折中处理(探讨)
为了简化,我写了一个自定义函数cartesian(),把集合用"|"分隔成字符串,如曾茜就对应"Z,C|X,Q"。我实际中遇到的名字,长度为2到5不等。刚开始我打算以最多的5个字为基础,写5重循环,后来发现第3、4、5层循环不执行时,就会出错。
后来想到用递归。如果只有两个字(每个字对应一个集合,如曾——Z,C),就出结果;如果多于2个字(以5个为例),就先把前两个字的笛卡尔算出来,再和第3、4、5个字组合,这样就变成了4个字,再变成3个字,2个字,例如:曾茜佳,"C,Z|Q,X|J",三个集合。先计算前两个字,即"C,Z|Q,X",得到"CQ,CX,ZQ,ZX",再和第三个字组合,得到"CQ,CX,ZQ,ZX|J",再次调用,得到"CQJ,CXJ,ZQJ,ZXJ"。
5.VBA代码
Function cartesian(str)
'笛卡尔积的实现,传入的参数是字符串,格式如:"Z,C|X,Q".|把字符串分为不同的集合,每个集合里有一个或多个字母。采用了递归的方法
arr = Split(str, "|")
If UBound(arr) = 1 Then '下标是0、1,但是是两个元素
setA = Split(arr(0), ",")
setB = Split(arr(1), ",")
rtn = "" '用于接收返回值,下同
For Each a In setA
For Each b In setB
rtn = rtn & "," & (a & b)
Next
Next
cartesian = Mid(rtn, 2, 100)
ElseIf UBound(arr) > 1 Then '处理多于2个的情况
tmp1 = cartesian(arr(0) & "|" & arr(1)) '把前两个集合用处理成一个集合
tmp2 = ""
For i = 2 To UBound(arr)
tmp2 = tmp2 & "|" & arr(i)
Next
tmp2 = Mid(tmp2, 2, 100) '因为没有类似python的切片等操作,只能循环一次获得从第2个位置开始的所有元素。
cartesian = cartesian(tmp1 & "|" & tmp2)
Else
cartesian = "参数错误"
End If
End Function