机器学习算法总结9:k-means聚类算法

无监督学习:训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。
聚类是典型无监督学习任务,它试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个
在这里插入图片描述
距离度量:通过距离来定义相似度度量,距离越大,相似度越小。最常用的距离度量是闵可夫斯基距离,其中,当p=2时,称为欧氏距离;当p=1时,称为曼哈顿距离。详见我的博客:机器学习算法总结3:K近邻法
除了上述距离度量,还有余弦距离,余弦值越接近1,说明两个向量夹角越接近0度,表明两个向量越相似。
在这里插入图片描述
余弦距离强调方向的差异,比如:聚类用户的喜好分布;
闵可夫斯基距离强调数值的差异,比如:聚类用户的活跃度。
k均值(k-means)算法是聚类算法中最经典的算法,其中,k表示类别数,means表示均值,顾名思义k-means是通过均值对样本集进行聚类的算法
算法流程如下:
在这里插入图片描述
算法终止条件:通常设置一个最大运行轮数或最小调整幅度阈值,若达到最大轮数或调整幅度小于阈值,则停止运行。

参考书目:机器学习(周志华)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值