数据挖掘学习笔记:二元属性的邻近性度量

二元属性:0和1.显而易见,0表示不出现,1表示出现

分为:对称性和非对称性

对称性二元属性:两个个状态同等重要

非对称性:两个状态不是同等重要的(更重要的/几率较小的赋值1),两个都取1(正匹配)比两个都取0(负匹配)的情况更有意义

邻近性度量:为相异性和相似性度量

:如何刻画对称二元属性之间的相异性

这是对象 i 与对象 j 之间二元属性的列联表

q:表示对象 i 与对象 j 都取1的属性数,其余类似

p:表示刻画对象的属性总数

那么相异性:

:那么非对称二元属性的相异性呢?

:正匹配比度匹配有意义的多,因此负匹配数t忽略不计

那么非对称二元属性之间的相似性度量为:,即 1 - d( i , j )

一般来讲,我们更关注值为 1 的特征,当数据向量非常稀疏时,值为 1 的特征个数少,值为 0 的特征个数非常多,此时 SMC 对每个用户间计算的值都是非常相近的,容易判定都相似,所以引入 Jaccard 系数,它忽略了取值都是 0 的特征。

当对称和非对称的二元属性出现在同一个数据集中,可以使用混合属性方法

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值