王小草【机器学习】笔记--无监督算法之聚类

标签(空格分隔): 王小草机器学习笔记


1. 聚类的概述

存在大量未标注的数据集,即只有特征,没有标签的数据。
根据这些特征数据计算样本点之间的相似性。
根据相似性将数据划分到多个类别中。
使得,同一个类别内的数据相似度大,类别之间的数据相似度小。

2. 相似性的度量方法

2.1 欧式距离

欧氏距离指的是在任何维度的空间内,两点之间的直线距离。距离越大,相似度越小,距离越小,相似度越大。公式如下:
截图170.png-3.4kB

2.2 曼哈顿距离

曼哈顿距离(Manhattan DistanceCity)也叫街区距离(Block Distance)。两点之间的距离是直角三角形的两条边长和。

截图172.png-2.2kB

国外一般是分一个一个街区的,要想从街区的一角走到另一角,不能直接穿过,必须沿着街区两边的道路走。
截图173.png-6.2kB

所以上图中两点的曼哈顿距离是:
|x1-w1|+|x2-w2|

2.3 汉明距离Hamming Distance

假设有两组数据分别是两个用户在淘宝上买过的东西,如下图,假设1-17是17件商品,如果买了就在该用户下标记为1,没买的标记为0.根据这两组数据比较AB两个用户在购物行为上的相似性。
汉明距离的做法是,如果AB都没有买或都买了,表示他们行为一致,距离为0,相似度高;如果他们的行为不同,那么在该商品种类下距离为1,最后将17件商品对应的距离相加(也就是把1相加),求和的结果就是汉明距离

截图174.png-11.5kB

2.4 皮而逊相关系数

Pearson相关系数是用来衡量两个数据集合是否在一条线上面。
Pearsion相关系数的范围是[-1,1],如果完全正相关则为1,完全负相关则为-1,完全不先关则为0.

截图175.png-10.6kB

pearsion相关系数在回归中应用普遍,比如在建立回归模型之前,需要先计算各个自变量与应变量之间的相关度,如果相关度小,则应该讲该自变量从模型中去掉。另外,也有必要计算自变量之间的两两相关性,如果自变量之间存在相关性大的变量,那么非常有必要将其中一个剔除或者使用主成分分析PCA进行特征降维,因为线性回归的假设之一是自变量都是互相独立的,如果有自变量先关则会导致共线性,影响模型的质量与预测的准确度。

2.5 余弦相似度

通过计算两个向量的夹角余弦值来评估他们的相似度。因为我们认为夹角如果越大则相距越远,夹角小则距离近,余弦值越接近1。

计算余弦角的公式:
QQ截图20161023161720.png-3.6kB

假设向量a、b的坐标分别为(x1,y1)、(x2,y2)则余弦相似度为:
QQ截图20161023161630.png-8.5kB

设向量 A = (A1,A2,…,An),B = (B1,B2,…,Bn) 。推广到多维:
QQ截图20161023161640.png-9.3kB

皮尔逊先关系数与预先相似度的关系:
相关系数即将x,y坐标向量各自平移到原点后的夹角余弦。
这即解释了为何文档间求距离使用夹角余弦,因为这一物理量表征了文档去均值化后的随机向量间的相关系数。

文档的去均值就是将计算文档的tf-idf值。
然后再将tf-idf来做余弦相似性。

2.6 杰卡德相似系数

Jaccard similarity coefficient
两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的杰卡德系数,用符号 J(A,B) 表示。杰卡德相似系数是衡量两个集合相似度的一种指标。
QQ截图20161023155306.png-7.7kB

假设样本A和样本B是两个n维向量,而且所有维度的取值都是0或1。例如,A(0,1,1,0)和B(1,0,1,1)。我们将样本看成一个集合,1表示集合包含该元素,0表示集合不包含该元素。

p:样本A与B都是1的维度的个数

q:样本A是1而B是0的维度的个数

r:样本A是0而B是1的维度的个数

s:样本A与B都是0的维度的个数

那么样本A与B的杰卡德相似系数可以表示为:
QQ截图20161023155453.png-3.5kB

此处分母之所以不加s的原因在于:

对于杰卡德相似系数或杰卡德距离来说,它处理的都是非对称二元变量。非对称的意思是指状态的两个输出不是同等重要的,例如,疾病检查的阳性和阴性结果。

按照惯例,我们将比较重要的输出结果,通常也是出现几率较小的结果编码为1(例如HIV阳性),而将另一种结果编码为0(例如HIV阴性)。给定两个非对称二元变量,两个都取1的情况(正匹配)认为比两个都取0的情况(负匹配)更有意义。负匹配的数量s认为是不重要的,因此在计算时忽略。

杰卡德相似度算法没有考虑向量中潜在数值的大小,而是简单的处理为0和1,不过,做了这样的处理之后,杰卡德方法的计算效率肯定是比较高的,毕竟只需要做集合操作。

2.7 相对熵

相对熵也叫K-L距离,计算公式如下:

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值