k-modes聚类算法介绍

为什么要用k-modes算法

k-means算法是一种简单且实用的聚类算法,但是传统的k-means算法只适用于连续属性的数据集,而对于离散属性的数据集,计算簇的均值以及点之间的欧式距离就变得不合适了。k-modes作为k-means的一种扩展,适用于离散属性的数据集。

k-modes算法介绍

假设有N个样本,M个属性且全是离散的,簇的个数为k
步骤一:随机确定k个聚类中心 C1,C2...Ck Ci 是长度为M的向量, Ci=[C1i,C2i,...,CMi]

步骤二:对于样本 xj(j=1,2,...,N) ,分别比较其与k个中心之间的距离(这里的距离为不同属性值的个数,假如 x1=[1,2,1,3],C1=[1,2,3,4] ,那么 x1 C1 之间的距离为2)

步骤三:将 xj 划分到距离最小的簇,在全部的样本都被划分完毕之后,重新确定簇中心,向量 Ci 中的每一个分量都更新为簇 i 中的众数

步骤四:重复步骤二和三,直到总距离(各个簇中样本与各自簇中心距离之和)不再降低,返回最后的聚类结果。

算例

假设有7个样本,每个样本有4个属性,表示为矩阵X

X=113212566755010011333442(1)

随机确定2个聚类中心 C1=[1,5,1,3],C2=[2,5,1,2]
划分结果用Y表示

Y=111010000101(2)

即第1、2、3、5个样本被划分到 C1 ,即第4、6个样本被划分到 C2
接下来更新 C1C2
C1=[1,6,0,3],C2=[2,7,0,4] (有多个众数就随机取一个,例子不好举,就这样吧)
后面的步骤就是不断重复步骤二和三了

### Kmodes聚类算法的工作原理 Kmodes 是一种专门用于处理离散型数据的聚类方法,适用于分类变量的数据集。它扩展了经典的 KMeans 算法以适应非数值型特征的情况。以下是其核心工作原理: #### 初始化阶段 在初始阶段,随机选择 \( k \) 个样本作为质心(centroids),这些质心代表各个簇的核心点[^1]。 #### 距离度量 由于 KModes 处理的是类别型数据而非连续型数据,因此无法使用欧几里得距离来衡量相似性。取而代之的是采用 **汉明距离 (Hamming Distance)** 来计算两个样本之间的差异程度。对于任意两个样本 \( x_i \) 和 \( x_j \),它们的距离定义为两者对应维度上不相同的属性数量[^2]。 #### 迭代优化过程 1. 将每个样本分配到最近的簇中,依据是该样本与当前各簇质心间的最小汉明距离。 2. 更新每组内的新质心:通过统计每一维上的众数(mode)重新设定新的质心位置[^4]。 此两步交替执行直至满足停止条件——要么达到预设的最大迭代次数,要么前后两次更新后的质心不再发生变化为止。 ### 应用场景分析 鉴于 KModes 的特性主要针对定性资料设计而成,故常见应用于如下领域: - 市场营销中的客户细分研究,当涉及偏好选项如颜色喜好、品牌忠诚度等名义尺度测量指标时尤为适用; - 社交媒体数据分析,比如用户标签或者兴趣爱好分群等领域也常会运用此类技术来进行探索式挖掘活动;另外还有基因序列比较等方面也可能需要用到类似的思路去寻找模式匹配关系等等[^3]。 ```python from kmodes.kmodes import KModes # 定义KModes模型并训练 km = KModes(n_clusters=3, init='Huang', n_init=5, verbose=1) clusters = km.fit_predict(data) # 查看最终形成的三个中心点的具体情况 print(km.cluster_centroids_) ```
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值