对数据的认识(二)

这篇博客探讨了数据处理中基于内存的聚类和最近邻算法的数据结构,包括数据矩阵和相异性矩阵。详细介绍了如何计算标称属性、二元属性和序数属性之间的相异性,以及如何处理序数属性。此外,还讨论了欧几里得距离、曼哈顿距离、闵可夫斯基距离和上确界距离等距离度量,并强调了在处理文档的词频向量时,余弦相似性作为非度量测度的重要性。
摘要由CSDN通过智能技术生成
四、度量数据的相似性和相异性
1、数据矩阵和相异性矩阵
假设我们有n个对象(如人、商品或课程),被p个属性(又称维或特征,如年龄、身高、体重或性别)刻画。这些对象是x1=(x11,x12,…,x1p),x2=(x21,x22,…,x2p),等等,其中xij是对象xi的第j个属性的值。为简单计,以后我们称对象xi为对象i。这些对象可以是关系数据库的元组,也称数据样本或特征向量。

通常,主要的基于内存的聚类和最近邻算法都在如下两种数据结构上运行:

·数据矩阵(data matrix)或称对象-属性结构:这种数据结构用关系表的形式或n×p(n个对象×p个属性)矩阵存放n个数据对象:

 

每行对应于一个对象。在记号中,我们可能使用f作为遍取p个属性的下标。

·相异性矩阵(dissimilarity matrix)或称对象-对象结构:存放n个对象两两之间的邻近度(proximity),通常用一个n×n矩阵表示:

 

其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量。一般而言,d(i,j)是一个非负的数值,对象i和j彼此高度相似或“接近”时,其值接近于0;而越不同,该值越大。注意,d(i,i)=0,即一个对象与自己的差别为0。此外,d(i,j)=d(j,i)。(为了易读性,我们不显示d(j,i),该矩阵是对称的。)相异性度量的讨论遍及本章的余下部分。

相似性度量可以表示成相异性度量的函数。例如,对于标称数据

                  sim(i,j)=1-d(i,j)(2.10)

其中,sim(i,j)是对象i和j之间的相似性。本章的其余部分,我们也对相似性度量进行讨论。


2、标称属性的邻近性度量
    两个对象i,j的相异性计算公式(根据不匹配率来计算):
         
 其中,m是匹配的数目(即i和j取值相同状态的属性数),而p是刻画对象的属性总数。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值