读书笔记 -- 005_数据挖掘_度量数据的相似性和相异性

1、概述
相似性和相异性都成为邻近性(Proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则他们的相似性度量将返回0。

2、数据矩阵和相异性矩阵
假设我们有n个对象,每个对象由p个属性进行刻画。那么得到对象集X = (x1, x2, x3, …. xn) ,对象xi的属性集为 P = (pi1, pi2, pi3 … pip) , 1 < i < n。

数据矩阵(data matrix)

或称对象-属性结构。这种数据结构用关系表的形式或 n x p(n个对象 x p个属性)矩阵存放n个数据对象:
图--数据矩阵

相异性矩阵(dissimilarity matrix)

或称对象-对象结构。存放n个对象两两之间的邻近度,通常用一个n x n矩阵表示:
图--相异性矩阵
其中d(i, j)是对象i和对象j之间的相异性值。一般而言,d(i, j)是一个非负的数值。相似性可以表示成相异性度量的函数:sim(i, j) = 1 – d(i, j)。

数据矩阵由两种实体或者“事物”组成,即行(代表对象)和列(代表属性)。因而,数据矩阵经常被称之为二模(two mode)矩阵。相异性矩阵只包含一类实体,因此被称之为一模(one mode)矩阵。许多聚类和最邻近算法都在相异性矩阵上运行。在使用这些算法之前,可以把

  • 1
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值