变量的相异度:距离
1、欧几里得距离
2、闵可夫斯基距离
相似度
1、简单匹配系数
2、Jaccard系数
假设每个非对称的二元属性对应于商店的一种商品,则1表示该商品被购买,而0表示该商品未被购买。由于未被购买的商品数远大于被其购买的商品数,因而像SMC这样的相似性度量将会判别所有的事务都是类似的。这样,常常使用Jaccard系数来处理仅包含非对称的二元属性的对象。
3、余弦相似度
简单匹配系数和Jaccard系数都是二元数据的相似性度量。
4、广义Jaccard系数
广义Jaccard系数可以用于文档数据,并在二元属性情况下归约为Jaccard系数。
5、相关性