基于BinaryVector优化的KModes算法

这里将记录一下,如何快速的开发一个针对binary vector进行优化的KModes聚类算法。

首先,KModes算法本身和KMeans的过程是一致的,差别在于distance function和质心的更新方法上。

KModes采用Hamming Distance计算向量间的距离,质心的更新方法则是统计每个column中,出现频数最多的类别。
假设一共有5个向量:
[0, 1, 1, 0, 0]
[0, 0, 0, 1, 1]
[0, 0, 0 1, 0]
[1, 1, 1, 0, 0]
[1, 1, 0, 0, 0]
可以看到1,4,5是一类,2,3是一类。
更新的时候,假设1,2,3被划分到了一起,那么他们的质心计算过程就是:

  • 统计每个column的值分布,[ {0:3, 1:0}, {0:2, 1:1}, {0:2, 1:1}, {0:1, 1:2}, {0:2, 1:1} ]
  • 每个column下都保留最大值,[0, 0, 0, 1, 0]

接下来谈谈如何优化,binary vector一个重要的优化点就是数据表征,比如一个16维的0,1数组,可以用两个uint8_t的整数来压缩表示:

In: import numpy as np
In: np.packbits([0, 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值