这里将记录一下,如何快速的开发一个针对binary vector进行优化的KModes聚类算法。
首先,KModes算法本身和KMeans的过程是一致的,差别在于distance function和质心的更新方法上。
KModes采用Hamming Distance计算向量间的距离,质心的更新方法则是统计每个column中,出现频数最多的类别。
假设一共有5个向量:
[0, 1, 1, 0, 0]
[0, 0, 0, 1, 1]
[0, 0, 0 1, 0]
[1, 1, 1, 0, 0]
[1, 1, 0, 0, 0]
可以看到1,4,5是一类,2,3是一类。
更新的时候,假设1,2,3被划分到了一起,那么他们的质心计算过程就是:
- 统计每个column的值分布,[ {0:3, 1:0}, {0:2, 1:1}, {0:2, 1:1}, {0:1, 1:2}, {0:2, 1:1} ]
- 每个column下都保留最大值,[0, 0, 0, 1, 0]
接下来谈谈如何优化,binary vector一个重要的优化点就是数据表征,比如一个16维的0,1数组,可以用两个uint8_t的整数来压缩表示:
In: import numpy as np
In: np.packbits([0,