王小草【机器学习】笔记--无监督算法之聚类

本文链接：https://blog.csdn.net/sinat_33761963/article/details/53520650

标签（空格分隔）：王小草机器学习笔记

1. 聚类的概述

存在大量未标注的数据集，即只有特征，没有标签的数据。
根据这些特征数据计算样本点之间的相似性。
根据相似性将数据划分到多个类别中。
使得，同一个类别内的数据相似度大，类别之间的数据相似度小。

2. 相似性的度量方法

2.1 欧式距离

欧氏距离指的是在任何维度的空间内，两点之间的直线距离。距离越大，相似度越小，距离越小，相似度越大。公式如下：
截图170.png-3.4kB

2.2 曼哈顿距离

曼哈顿距离（Manhattan DistanceCity）也叫街区距离（Block Distance）。两点之间的距离是直角三角形的两条边长和。

截图172.png-2.2kB

国外一般是分一个一个街区的，要想从街区的一角走到另一角，不能直接穿过，必须沿着街区两边的道路走。
截图173.png-6.2kB

所以上图中两点的曼哈顿距离是:
|x1-w1|+|x2-w2|

2.3 汉明距离Hamming Distance

假设有两组数据分别是两个用户在淘宝上买过的东西，如下图，假设1-17是17件商品，如果买了就在该用户下标记为1，没买的标记为0.根据这两组数据比较AB两个用户在购物行为上的相似性。
汉明距离的做法是，如果AB都没有买或都买了，表示他们行为一致，距离为0，相似度高；如果他们的行为不同，那么在该商品种类下距离为1，最后将17件商品对应的距离相加（也就是把1相加），求和的结果就是汉明距离

截图174.png-11.5kB

2.4 皮而逊相关系数

Pearson相关系数是用来衡量两个数据集合是否在一条线上面。
Pearsion相关系数的范围是[-1,1],如果完全正相关则为1，完全负相关则为-1，完全不先关则为0.

截图175.png-10.6kB

pearsion相关系数在回归中应用普遍，比如在建立回归模型之前，需要先计算各个自变量与应变量之间的相关度，如果相关度小，则应该讲该自变量从模型中去掉。另外，也有必要计算自变量之间的两两相关性，如果自变量之间存在相关性大的变量，那么非常有必要将其中一个剔除或者使用主成分分析PCA进行特征降维，因为线性回归的假设之一是自变量都是互相独立的，如果有自变量先关则会导致共线性，影响模型的质量与预测的准确度。