被许多算法使用:聚类、最邻近分类、异常检测等。一旦计算出相似性或相异性,就不是原始数据了,可以看做是将数据变换到相似性(相异性)空间,然后进行分析。
邻近度量:欧几里得距离度量 (适合时间序列等稠密数据或二维点)、jaccard(适合时间序列等稠密数据或二维点)、余弦相似度量(适合文档等稀疏数据)
简单属性之间的相似性和相异性:标称的非零即一;序数的映射到整数算个数|x-y|/(n-1);区间或比率的|x-y|
a)距离:
数据对象之间的相异度:距离(闵可夫斯基距离r=1曼哈顿距离L1范数;r=2欧几里得距离L2距离;r=∞最大距离);非度量的相异度集合差;非度量的相异度时间
数据对象之间的相似度:非对称相似性度量混淆矩阵
b)邻近性度量:
二元数据的相似性度量:SMC、jaccard相似度、余弦相似度、广义jaccard系数、相关性(完全相关、非线性相关、相关性可视化bregman散度)
邻近度计算问题:距离度量的标准化和相关性、组合异种属性的相似度、使用权值
选取正确的邻近性度量:稠密的、连续的通常使用距离度量;稀疏数据常常包含非对称的属性,使用余弦、jaccard、广义jaccard都是合适的