二元属性:0和1.显而易见,0表示不出现,1表示出现
分为:对称性和非对称性
对称性二元属性:两个个状态同等重要
非对称性:两个状态不是同等重要的(更重要的/几率较小的赋值1),两个都取1(正匹配)比两个都取0(负匹配)的情况更有意义
邻近性度量:为相异性和相似性度量
问:如何刻画对称二元属性之间的相异性
答:
这是对象 i 与对象 j 之间二元属性的列联表
q:表示对象 i 与对象 j 都取1的属性数,其余类似
p:表示刻画对象的属性总数
那么相异性:
问:那么非对称二元属性的相异性呢?
答:正匹配比度匹配有意义的多,因此负匹配数t忽略不计
那么非对称二元属性之间的相似性度量为:,即 1 - d( i , j )
一般来讲,我们更关注值为 1 的特征,当数据向量非常稀疏时,值为 1 的特征个数少,值为 0 的特征个数非常多,此时 SMC 对每个用户间计算的值都是非常相近的,容易判定都相似,所以引入 Jaccard 系数,它忽略了取值都是 0 的特征。
当对称和非对称的二元属性出现在同一个数据集中,可以使用混合属性方法