聚类分析基础-相似度计算

最新推荐文章于 2024-04-30 14:01:40 发布

你再翻一页就好了

最新推荐文章于 2024-04-30 14:01:40 发布

阅读量3.6k

点赞数 1

分类专栏：数据分析机器学习文章标签：数据分析

本文链接：https://blog.csdn.net/qq_41542141/article/details/107188035

版权

数据分析同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

机器学习

4 篇文章 0 订阅

订阅专栏

相似性：

1；二元变量

对于二元变量，我们通常比较为1的数据占比比例，对于为0的一般不比较相似性，因为没有目标特征的样本其差异无法判断。

2；标量

对只有大小，没有方向的两个样本，用欧几里何距离： $e . g : y = (1, 4, 6), x = (3, 5, 120)$ ,则两样本之间的相似性为 $\sqrt{(1-3)^2+(4-5)^2+(6-120)^2}=114$
,但在标量处理的过程中也有另外一个问题，就是规范化，在例子中（6， 120）是属于不同量级的数，这会加大判定的不平等性。因此常用到规范化。
常见的规范化一般有：1，Min,max,即 $\frac{x-min(x)}{max(x)-min(x)}$
2,mean平均,即 $\frac{x-mean}{max(x)-min(x)}$ ;3,正态规范化,即 $\frac{x-\mu}{\sigma}$

同事还有曼哈顿距离 $d=|x_1-y_1|+...+|x_i-y_i|$ 和闵可夫斯基距离 $d=\sqrt[p]{(x_1-y_1)^p+(x_2-y_2)^p+...+(x_i-y_i)^p}$ ，欧氏距离和曼哈顿距离可以看做闵可夫斯基距离在p2和p=1下的特殊情况

3;混合类型变量

(1);一种方法是变量按类型分组，对每种类型的变量单独聚类分析，但实际分析不可行，各种类型分析结果不能兼容
(2);另一种是将不同的变量组合在单个相异度矩阵中，把所有有意义的变量转换到共同的值域[0,1]上，对象j和j间的相异度d(i,j)定义为:
$d(i,j)=\frac{\sum\limits_{f=1}^p\delta_{ij}^{(f)}d_{ij}^{(f)}}{\sum\limits_{f=1}^{p}\delta_{ij}^{(f)}}$
其中如果1, $x_{if}或x_{jf}$ 数据不存在(对象i或者对象j的变量f无测量值);或者2， $x_{if}=x_{jf}=0$ 且变量f为非对称二值变量，则标记 $\delta_{ij}^{(f)}=0$ ，否则 $\delta_{ij}^{(f)}=1$
变量f和j直接相异度的计算方式与其具体类型有关;
（1）若变量f为二值变量或者符号变量,则如果 $x_{if}=x_{jf}$ ，那么 $d_{ij}^{(f)}=0$ ;否则 $d_{ij}^{(f)}=1$
(2)若变量f为间隔数值变量,则 $d_{ij}^{(f)}=\frac{|x_{if}-x_{jf}|}{max_{h}x_{hf}-min_{h}x_{hf}}$ ;其中h为变量f所有可能的对象
（3）若变量f为顺序变量或者比例数值变量，则计算顺序 $r_{if}$ 和 $z_{if}=\frac{r_{if}-1}{M_{f}-1}$ ,并将 $z_{if}$ 当作间隔数值变量来进行计算处理

3，对于分类变量

用“取值不同的同位属性数/单个元素的全部属性数”来标识其相异度，就是每个类(同位属性)的数量/总数量(属性数的全部)

4,对于序数变量

对于序数变量，每个值分配一个数，叫做这个数的秩，比如冠军分类1,2，3位各个值的秩，然后用秩作为标量来计算相异度。

5，对于向量

闵可夫斯基无法代表出向量的方向，用余弦度 $s(X,Y)=\frac{X^TY}{|||X||Y||}$ ,余弦度是代表相似度而不是相异度

你再翻一页就好了

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
聚类分析基础-相似度计算

相似性：1；二元变量对于二元变量，我们通常比较为1的数据占比比例，对于为0的一般不比较相似性，因为没有目标特征的样本其差异无法判断。2；标量对只有大小，没有方向的两个样本，用欧几里何距离：e.g:y=(1,4,6),x=(3,5,120)e.g:y=(1,4,6),x=(3,5,120)e.g:y=(1,4,6),x=(3,5,120),则两样本之间的相似性为d=(1−3)2+(4−5)2+(6−120)2d = (1-3)^2+(4-5)^2+(6-120)^2d=(1−3)2+(4−5)2+(6
复制链接

扫一扫