机器学习笔记(三)k-means

今天来学习和复习一下K-均值聚类算法

一概念:

聚类是一种无监督的学习,它将相似的对象归到或是分成同一个簇(集合)当中,是自动的。聚类和分类的最大不同在于,分类的目标事先已知,而聚类不知道。聚类分析试图将相似的对象(实例)归为同一类,不相似的对象规程不同的类。相似这一概念取决于所选择的相似度计算方法。由于无监督算法不需要带标签数据,所以适用于许多难以

获取带标签数据的应用,并且在有监督学习任务之前,可以先利用聚类等无监督学习来探查数据集的类别情况。

言归正传,K-MEANS就是将制定的数据集分成用户制定的K个聚簇,是一种简单的迭代型聚类算法。

二算法描述

k值的确定,典型做法是依据某些先验知识。紧密度和相似度的度量标准,默认的是欧几里得距离,也可以使用其他距离函数,如马氏距离,夹角余弦距离

代价函数:就是最小误差平方和函数,面向非凸代价函数优化的贪婪下降求解算法,就是梯度下降法。代价函数无法用解析解的方法求出,只能用迭代。

代价函数的局限性是只能得到局部最优值,对于全局来说,有些类的中心找的不好。

三算法过程

创建k个点作为初始的质心点(随机选择)

当任意一个点的簇分配结果发生改变时

       对数据集中的每一个数据点

              对每一个质心

                     计算质心与数据点的距离

              将数据点分配到距离最近的簇

       对每一个簇,计算簇中所有点的均值,并将均值作为质心

四算法特性

1局限性,只能获得局部最优解。2对噪声点敏感问题,最好先进行预处理移除噪声点。

算法在图像处理上的一个应用可以参照这篇博客,谢谢gloomyfish   点击打开链接http://blog.csdn.net/jia20003/article/details/8828648.

五:高级主题

对k-means算法的简单扩展:第一,柔性k-means,在标准k-means算法中,每个点x(i)属于且仅属于一个聚簇,但柔性的是每个点x(i)依概率付给每一个聚簇。

第二,采用半监督学习方法,同时使用标签和未标签数据。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值