【数据挖掘笔记】度量数据的相似性和相异性

相信很多同学正在完成毕业论文(设计)或是准备投稿,今天就为大家推荐科研论文经常用到的数据处理内容——度量数据的相似性和相异性内容。能够用上这些内容,相信一定能为自己的论文增光添彩的!!!

 

 

 

本文给出相似性和相异性度量。相似性和相异性都称邻近性(proximity)。相似性和相异性是有关联的。典型地,如果两个对象i和j不相似,则它们的相似性度量将返回0。相·似性值越高,对象之间的相似性越大(典型地,值1指示完全相似,即对象是等同的)。相异性度量正好相反。如果对象相同(因而远非不相似),则它返回值0。相异性值越高,两个对象越相异。

 

一、数据矩阵与相异性矩阵

 

通常,主要的基于内存的聚类、最近邻算法都在如下两种数据结构上运行:数据矩阵相异性矩阵

 

 

二、标称属性的邻近性度量

 

标称属性可以取两个或多个状态。例如, map_color是一个标称属性,它可以有比如说5种状态:红、黄、绿、粉红和蓝。

 

 

 

三、二元属性的邻近度度量

 

二元属性只有两种状态:0或1。其中0表示该属性不出现,1表示它出现。例如,给出一个描述患者的属性smolker, 1表示患者抽烟,而0表示患者不抽烟。像对待数值一样来处理二元属性会误导。因此,要采用特定的方法来计算二元数据的相异性。

 

 

四、数值型属性的相异性(闵可夫斯基距离

 

我们广泛用于计算数值属性刻画的对象的相异性的距离度量。这些度量包括欧几里得距离曼哈顿距离闵可夫斯基距离

 

 

两个对象间的欧几里得"距离和曼哈顿距离:

 

 

 

五、序数属性的邻近度量

 

序数属性的值之间具有有意义的序或排位,而相继值之间的量值未知。例如:包括size属性的值序列small, medium, large。

 

“如何处理序数属性?” 在计算对象之间的相异性时,序数属性的处理与数值属性的非常类似。假设f是用于描述n个对象的一组序数属性之一。关于f的相异性计算涉及如下步骤:

 

 

 

六、混合类型数据的相异性

 

“那么,我们如何计算混合属性类型的对象之间的相异性?"一种方法是将每种类型的属性分成一组,对每种类型分别进行数据挖掘分析(例如,聚类分析)。但是,这种方法往往行不通

 

一种更可取的方法是将所有属性类型一起处理,只做一次分析。一种这样的技术将不同的属性组合在单个相异性矩阵中,把所有有意义的属性转换到共同的区间[0.0, 1.0]。

 

 

 

 

七、余弦相似度

 

文档用数以千计的属性表示,每个记录文档中一个特定词(如关键词)或短语的频度。这样,每个文档都被一个所谓的词频向量(term-frequency vector)表示。

 

 

小结

 

  • 数据集由数据对象组成。数据对象代表实体。数据对象用属性描述。属性可以是标称的、二元的、序数的或数值的。

     

  • 标称(或分类)属性的值是符号或事物的名字,其中每个值代表某种类别、编码或状态。

     

  • 二元属性是仅有两个可能状态(如1和0,或真与假)的标称属性。如果两个状态同等重要,则该属性是对称的,否则它是非对称的。

     

  • 序数属性是其可能的值之间具有有意义的序或排位,但相继值之间的量值未知的属性。

     

  • 数值属性是定量的(即它是可测量的量),用整数或实数值表示。数值属性的类型可以是区间标度的或比率标度的。区间标度属性的值用固定、相等的单位测量。比率标度属性是具有固有0点的数值属性。度量称为比率标度的,因为我们可以说它们的值比测量单位大多少倍。

 

参考文献

 

  1. Jiawei Han, Micheline Kamber & Jian Pei. Data Miining Concepts and Techniques (Third Edition). 

     

  2. 范明,孟小峰译. 数据挖掘:概念和技术(第三版).

 

  • 3
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值