![823629e51cfbe284052a7f332202ca99.png](https://img-blog.csdnimg.cn/img_convert/823629e51cfbe284052a7f332202ca99.png)
本文包括:
- 无监督学习
- 聚类的概念
- 层次聚类:
- k均值算法特性
- k均值聚类
1.无监督学习:
从无标注的数据中学习数据的统计规律或者说内在结构的机器学习。因为数据没有标注,机器需要自己从数据中找出规律,因此无监督学习是一个困难任务。通常,为了得到一个足够好的模型,无监督学习需要大量的数据,因为对数据隐藏的规律的发现需要足够的观测。
2.聚类的概念:
聚类是针对给定的样本,依据它们特征的相似度,将其归并到若干个“类或“簇”的数据分析问题。一个类是给定样本集合的一个子集。直观上,相似的样本聚集在相同的类,不相似的样本分散在不同的类。这里,样本之间的相似度起着重要作用。
在以上的聚类概念中,所谓相似度,不仅可以用我们已熟知的欧式距离来计算,也可以使用其它方法计算。
2.1 相似度:
2.1.1 距离:
对于n个样本,每个样本由m个属性的特征向量组成,样本集合可以用矩阵X表示:
这里列表示的是所有样本的一个特征的特征值,行表示的是一个样本的每个特征的特征值。第j个样本的第第i个特征值,可以用xij表示。(其实我更习惯于用行表示样本,用列表示特征,但因为书中是这样安排的矩阵,就暂且按这种方式建立矩阵了。)
对于不同的聚类问题,我们可以选择不同的距离定义来判断样本之间的相似度。
在监督学习的k近邻方法中,我们讲过闵可夫斯基距离的概念,这里不再讲述,如对此不了解,可以点击下面的链接查看:
舟晓南:统计学习方法 - k近邻(KNN)模型解读 | 数据分析,机器学习,学习历程全记录
与闵氏距离不同的是,马哈拉诺比斯距离(马氏距离)考虑的是各个特征之间的相关性,与各个分量的尺度无关。
马氏距离的定义:
其中:
S是协方差矩阵,所谓协方差,是统计学上用于统计两个变量的总体误差的一种方法,方差是协方差的一种特殊情况,协方差矩阵是将所有变量进行两两计算,并以矩阵的方式进行存储。
方差:
协方差:
对于两个变量X1和X2,它们的协方差矩阵是:
2.1.2 相关系数:
样品间的相似度也可以用相关系数来表示。相关系数越接近1,样本越相似,越接近0,样本越不相似。
相关系数:
其中:
2.1.3 夹角余弦:
样本之间的相似度也可以用夹角余弦来表示。越接近1,表示样本越相似,越接近0,表示样本越不相似。
夹角余弦: