数据——相似性和相异性度量

被许多算法使用:聚类、最邻近分类、异常检测等。一旦计算出相似性或相异性,就不是原始数据了,可以看做是将数据变换到相似性(相异性)空间,然后进行分析。

邻近度量:欧几里得距离度量 (适合时间序列等稠密数据或二维点)、jaccard(适合时间序列等稠密数据或二维点)、余弦相似度量(适合文档等稀疏数据)

简单属性之间的相似性和相异性:标称的非零即一;序数的映射到整数算个数|x-y|/(n-1);区间或比率的|x-y|
a)距离:
数据对象之间的相异度:距离(闵可夫斯基距离r=1曼哈顿距离L1范数;r=2欧几里得距离L2距离;r=∞最大距离);非度量的相异度集合差;非度量的相异度时间
数据对象之间的相似度:非对称相似性度量混淆矩阵

b)邻近性度量:
二元数据的相似性度量:SMC、jaccard相似度、余弦相似度、广义jaccard系数、相关性(完全相关、非线性相关、相关性可视化bregman散度)
邻近度计算问题:距离度量的标准化和相关性、组合异种属性的相似度、使用权值
选取正确的邻近性度量:稠密的、连续的通常使用距离度量;稀疏数据常常包含非对称的属性,使用余弦、jaccard、广义jaccard都是合适的

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值