前面学习的方法都是有标记值,有y,y是离散的,叫做分类,y是连续的,叫做回归
但是聚类没有标记值 ,所以属于无监督的算法
聚类
聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督学习的方法。
聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度划分成为若干组,
划分的原则是组内距离最小化而组间距离最大化。
簇:K个簇
特征提取角度:只是利用聚类来获取其特征 K << N
聚类一定程度(数据挖掘)上可以看成降维 N 维---> K维
注:矩阵的乘法也可以看做成降维的过程
数据降维
对于现在维数比较多的数据,我们首先需要做的就是对其进行降维操作。降维,简单来说就是说在尽量保证数据本质的前提下将数据中的维数降低。降维的操作可以理解为一种映射关系,例如函数,即由原来的二维转换成了一维。处理降维的技术有很多种,如前面的SVD奇异值分解,主成分分析(PCA),因子分析(FA),独立成分分析(ICA)等等。
PCA主成分分析:降维
本身X是m*n的矩阵 m个样本有n个特征(也就是说X是一个长矩阵,不是方阵的情况下)
处理过程:
用X的转置乘以X得到一个n*n的矩阵,于是就就可以求这个方阵的特征值,特征向量,把特征值λ1λ2......λn做一个大到小排列并且相应的特征向量,选择前K大的特征值(主元)及其所对应的特征向量,就完成了X本来是n维的降维到了k维
Goal:
- 理解相似度度量的各种方法和相互关系
- 掌握K-means聚类的思路和使用条件
- 了解层次聚类的思路和方法
- 理解密度聚类并能应用于实践
- ·DBSCAN
- ·密度最大值聚类
- 掌握谱聚类的算法
- 考虑谱聚类和PCA的关系
1. 相似度/距离计算方法总结
1.1 闵可夫斯基距离
闵氏距离不是一种距离,而是一组距离的定义。
(1) 闵氏距离的定义
两个n维变量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的闵可夫斯基距离定义为:
其中p是一个变参数。
当p=1时,就是曼哈顿距离;当p=2时,就是欧氏距离;当p→∞时,就是切比雪夫距离
根据变参数的不同,闵氏距离可以表示一类的距离。
(2) 曼哈顿距离
我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。例如在平面上,坐标(x1, y1)的点P1与坐标(x2, y2)的点P2的曼哈顿距离为:
要注意的是,曼哈顿距离依赖坐标系统的转度,而非系统在坐标轴上的平移或映射。
通俗来讲,想象你在曼哈顿要从一个十字路口开车到另外一个十字路口,驾驶距离是两点间的直线距离吗?显然不是,除非你能穿越大楼。而实际驾驶距离就是这个“曼哈顿距离”,此即曼哈顿距离名称的来源,同时,曼哈顿距离也称为城市街区距离(City Block distance)。
(1)二维平面两点a(x1,y1)与b(x2,y2)间的曼哈顿距离
(2)两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离
(3) 欧式距离
最常见的两点之间或多点之间的距离表示法,又称之为欧几里得度量,它定义于欧几里得空间中,如点 x = (x1,...,xn) 和 y = (y1,...,yn) 之间的距离为:
(1)二维平面上两点a(x1,y1)与b(x2,y2)间的欧氏距离:
(2)三维空间两点a(x1,y1,z1)与b(x2,y2,z2)间的欧氏距离:
(3)两个n维向量a(x11,x12,…,x1n) 与b(x21,x22,…,x2n)间的欧氏距离:
也可以用表示成向量运算的形式:
注意:都是平方!!!