余弦相似度高维数据_海量高维数据与近似最近邻

最新推荐文章于 2024-06-15 21:31:13 发布

weixin_39598094

最新推荐文章于 2024-06-15 21:31:13 发布

阅读量717

点赞数

文章标签：余弦相似度高维数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39598094/article/details/111648822

版权

在实际工程当中，我们常常会遇到海量的数据，那作为一个数据挖掘准从业人员，如何从海量的数据当中挖掘出他们数据之间的关系和规律就显得尤为重要了。

今天我要讲的时海量高维数据及其近似最近邻方案。

K-近邻算法（KNN）概述

KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。

KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

距离准则

在聊接下去的内容之前，我们首先要了解一个概念，叫距离准则：

距离准则有欧氏距离，Jaccard相似度，余弦相似度，Pearson相似度这几种，我们来分别解释下。

欧式距离就是指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离，所以它实现的是绝对距离。

余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。

Jaccard相似度是用于比较有限样本集之间的相似性与差异性，其中Jaccard系数值越大，样本相似度越高。

Pearson相似度是余弦相似度的升级版，它把每个向量都中心化了，即每个向量会减去所有向量的平均数，来实现数据更好的平衡，所以它实现的是相对距离。

近似最近邻问题（KNN=>ANN）

我们具体在哪些情景中会需要用到近似最近邻呢？举几个简单的例子：

Google/Baidu每天有海量新增的网页，怎么判断

最低0.47元/天解锁文章

weixin_39598094

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
余弦相似度高维数据_海量高维数据与近似最近邻

在实际工程当中，我们常常会遇到海量的数据，那作为一个数据挖掘准从业人员，如何从海量的数据当中挖掘出他们数据之间的关系和规律就显得尤为重要了。今天我要讲的时海量高维数据及其近似最近邻方案。K-近邻算法（KNN）概述 KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。