数据——相似性和相异性度量

最新推荐文章于 2022-02-28 20:56:29 发布

Chun_hhhhhHaru

最新推荐文章于 2022-02-28 20:56:29 发布

阅读量1.7k

点赞数

分类专栏：数据处理文章标签：数据分析

数据处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

被许多算法使用：聚类、最邻近分类、异常检测等。一旦计算出相似性或相异性，就不是原始数据了，可以看做是将数据变换到相似性（相异性）空间，然后进行分析。

邻近度量：欧几里得距离度量（适合时间序列等稠密数据或二维点）、jaccard（适合时间序列等稠密数据或二维点）、余弦相似度量（适合文档等稀疏数据）

简单属性之间的相似性和相异性：标称的非零即一；序数的映射到整数算个数|x-y|/(n-1)；区间或比率的|x-y|
a）距离：
数据对象之间的相异度：距离（闵可夫斯基距离r=1曼哈顿距离L1范数；r=2欧几里得距离L2距离；r=∞最大距离）；非度量的相异度集合差；非度量的相异度时间
数据对象之间的相似度：非对称相似性度量混淆矩阵

b）邻近性度量：
二元数据的相似性度量：SMC、jaccard相似度、余弦相似度、广义jaccard系数、相关性（完全相关、非线性相关、相关性可视化bregman散度）
邻近度计算问题：距离度量的标准化和相关性、组合异种属性的相似度、使用权值
选取正确的邻近性度量：稠密的、连续的通常使用距离度量；稀疏数据常常包含非对称的属性，使用余弦、jaccard、广义jaccard都是合适的

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据——相似性和相异性度量

被许多算法使用：聚类、最邻近分类、异常检测等。一旦计算出相似性或相异性，就不是原始数据了，可以看做是将数据变换到相似性（相异性）空间，然后进行分析。邻近度量：欧几里得距离度量（适合时间序列等稠密数据或二维点）、jaccard（适合时间序列等稠密数据或二维点）、余弦相似度量（适合文档等稀疏数据）简单属性之间的相似性和相异性：标称的非零即一；序数的映射到整数算个数|x-y|/(n-1)；区间或比...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。