【数据挖掘】机器学习中相似性度量方法-余弦相似度

写在前面:
首先感谢兄弟们的订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。

路虽远,行则将至;事虽难,做则必成。只要有愚公移山的志气、滴水穿石的毅力,脚踏实地,埋头苦干,积跬步以至千里,就一定能够把宏伟目标变为美好现实。

“相似性度量(similarity measurement)”系列文章:、
【数据挖掘】机器学习中相似性度量方法-欧式距离

Hello,大家好。

继续更新"相似性度量(similarity measurement)"系列文章,今天介绍的是余弦相似度。多的不说,少的不唠,下面开始今天的教程。

以下内容,完全是我根据参考资料和个人理解撰写出来的,不存在滥用原创的问题。

1、余弦相似度

余弦相似度(Cosine Similarity)是一种用于衡量两个非零向量之间角度 cosine 值的度量方法,以此来评估这两个向量在多维空间中的方向性相似度。它是通过计算两个向量的点积(内积)后,除以两个向量的模长(即长度)的乘积得到的。

2、计算公式

数学上,对于向量A=[ x 1 , x 2 , . . . , x n x_ 1,x_ 2,...,x_ n x1,x2,...,xn]和向量B=[ y 1 , y 2 , . . . , y n y_ 1,y_ 2,...,y_ n y1,y2,...,yn],余弦相似度cos( θ \theta θ)定义为:

  S i m ( A , B ) = cos ⁡ ( θ ) = A ⋅ B ∥ A ∥ ∥ B ∥ = ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 \ Sim(A,B)= \cos({\theta}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}  Sim(A,B)=cos(θ)=A∥∥BAB=i=1nAi2 i=1nBi2 i=1nAiBi

  • A⋅B 表示向量 A 和向量 B 的点积
  • ∥𝐴∥和 ∥B∥ 分别表示向量 A 和向量 B 的模(即长度)
  • 𝜃是向量 A 和向量 B 之间的夹角

余弦相似度的值范围是 [-1, 1]:

  • cos( θ \theta θ)=1,表示向量A和B方向完全相同
  • cos( θ \theta θ)=-1,表示向量A和B方向完全相反
  • cos( θ \theta θ)=0,表示向量A和B正交,没有任何方向上的相似性

3、余弦距离

余弦距离(Cosine Distance),从余弦相似度转换为距离概念,也是用来衡量两个向量间的相似性。余弦距离定义为:
  d ( A , B ) = 1 − cos ⁡ ( θ ) = 1 − A ⋅ B ∥ A ∥ ∥ B ∥ = 1 − ∑ i = 1 n A i B i ∑ i = 1 n A i 2 ∑ i = 1 n B i 2 \ d(A,B)= 1- \cos({\theta}) = 1- \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} = 1- \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}}  d(A,B)=1cos(θ)=1A∥∥BAB=1i=1nAi2 i=1nBi2 i=1nAiBi

通过公式可以看到,余弦距离是由1减去余弦相似度得到的。

  • 如果A和B两个向量完全相同,它们的余弦相似度是1,则余弦距离就是0,即A和B两个向量之间没有距离,完全一致
  • 如果A和B两个向量完全相反,它们的余弦相似度是-1,则余弦距离就是2,即A和B两个向量之间距离最大

4、代码实现

编写代码实现余弦相似度或余弦距离,在Python中,可以使用numpy、scipy或者sklearn来计算两个向量之间的余弦相似度或余弦距离:

# -*- coding: utf-8 -*-
"""
Created on Fri Jun 14 22:36:45 2024

@author: AIexplore微信公众号
"""


import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from scipy.spatial.distance import cosine

import numpy as np

def cosine_similarity_v1(vector_a, vector_b):
    """
    计算两个向量的余弦相似度。
    
    参数:
    vector_a -- 第一个向量,类型为NumPy数组或列表
    vector_b -- 第二个向量,类型为NumPy数组或列表
    
    返回:
    两个向量的余弦相似度
    """
    # 将输入转换为NumPy数组(如果还不是的话)
    vector_a = np.array(vector_a)
    vector_b = np.array(vector_b)
    
    # 计算向量的点积
    dot_product = np.dot(vector_a, vector_b)
    
    # 计算向量的模长(欧几里得范数)
    norm_a = np.linalg.norm(vector_a)
    norm_b = np.linalg.norm(vector_b)
    
    # 防止除以零的错误
    if norm_a == 0 or norm_b == 0:
        return 0  # 如果任一向量为空,则认为相似度为0
    
    # 计算并返回余弦相似度
    return dot_product / (norm_a * norm_b)


def cosine_similarity_v2(vec1, vec2):
    vec1 = np.array(vec1)
    vec2 = np.array(vec2)
    # 计算余弦相似度
    cos_sim = 1 - cosine(vec1, vec2)  # cosine函数直接返回的是距离,所以用1减去得到相似度
    return cos_sim


def cosine_similarity_v3(vec1, vec2):
    vec1 = np.array([vec1])
    vec2 = np.array([vec2])
    sim = cosine_similarity(vec1, vec2)
    return sim[0][0]


# data
vec1 = [1, 2, 3]
vec2 = [4, 5, 6]

# 计算相似度
similarity = cosine_similarity_v1(vec1, vec2)
print("余弦相似度 v1:", similarity)

similarity = cosine_similarity_v2(vec1, vec2)
print("余弦相似度 v2:", similarity)

similarity = cosine_similarity_v3(vec1, vec2)
print("余弦相似度 v3:", similarity)

输出结果:

余弦相似度 v1: 0.9746318461970762
余弦相似度 v2: 0.9746318461970761
余弦相似度 v3: 0.9746318461970762

上面代码提供了三种实现方式,殊途同归,根据需要选择性使用。

5、应用场景

余弦相似度因其特性在多个领域和应用场景中扮演着重要角色,下面列举一些典型的应用场景:

  • 推荐系统:在电商、短视频、音乐平台等推荐系统中,通过计算用户历史偏好向量(基于用户对项目的评分或互动)和待推荐项目特征向量之间的余弦相似度,可以发现与用户兴趣最为接近的项目,从而实现个性化推荐
  • 图像识别与检索:在计算机视觉CV领域,将图像特征(如通过深度学习模型提取的特征向量等)映射到高维空间,利用余弦相似度来比较不同图像间的相似度,可以实现图像检索、图像分类以及内容相似的图像分组
  • 聚类分析:在无监督学习的聚类任务中,余弦相似度可用作距离度量,帮助将具有较高相似性的数据点聚集在一起,形成有意义的簇

当然,还可以应用到文本相似性判断、信息检索、社交网络分析、文本分类、用户行为分析等。

参考文章

[1]https://www.cnblogs.com/BlogNetSpace/p/18225493
[2]https://blog.csdn.net/Hyman_Qiu/article/details/137743190
[3]https://blog.csdn.net/qq_39780701/article/details/137007729
[4]https://www.cnblogs.com/ghj1976/p/yu-xian-xiang-shi-ducosine-similarity-xiang-guan-j.html

写在最后

作者介绍:CSDN人工智能领域优质创作者,CSDN博客专家,阿里云专家博主,阿里云技术博主,有机器学习、深度学习、OCR识别项目4年以上工作经验,专注于人工智能技术领域。会根据实际项目不定期输出一些非商业的技术,内容不限,欢迎各位朋友关注。
1、关注下方公众号,让我们共同进步。
2、需要技术指导、交流合作,点击"关于我-与我联系"添加微信交流。

在这里插入图片描述

<think>好的,用户想了解如何实现或应用带有动态权重的余弦相似度计算。首先,我需要回顾余弦相似度的基本概念,它是衡量两个向量方向相似性的指标,计算公式为$\cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$。动态权重可能指的是在计算相似度时,不同维度有不同的权重,或者权重根据数据动态调整。 接下来,我需要考虑动态权重的应用场景。比如在推荐系统中,用户对不同特征的重视程度可能随时间变化;在多目标跟踪中,外观特征的某些部分可能更重要。这时候引入动态权重可以让模型更灵活。 然后,实现方法部分。基本思路是将权重向量与原始向量相乘,再进行余弦计算。数学公式应该是$\cos_{\text{weighted}}(A,B) = \frac{(W \odot A) \cdot (W \odot B)}{\|W \odot A\| \|W \odot B\|}$,其中$W$是权重向量,$\odot$是逐元素相乘。代码实现的话,可以用NumPy进行向量化操作,或者深度学习框架中的自定义层。 应用案例方面,DeepSort算法中的外观特征匹配可能用了动态权重,根据跟踪场景调整不同特征的权重。此外,在强化学习中,奖励函数的设计可能结合动态权重,调整不同状态特征的重要性。 需要注意的问题包括权重的初始化、优化方法,以及过拟合的风险。可能需要正则化或约束权重范围。 最后,根据用户提供的引用,特别是引用[2]提到DeepSort使用余弦度量学习,可以推测动态权重在其中可能应用,因此需要引用相关文献。此外,引用[5]提到奖励函数的设计,可能和动态权重在强化学习中的应用有关联,可以联系起来。</think>### 动态权重余弦相似度的实现与应用 #### 1. 核心概念 余弦相似度衡量两个向量的方向一致性,公式为: $$\cos(\theta) = \frac{A \cdot B}{\|A\| \|B\|}$$ **动态权重**的引入使模型能够根据不同任务或数据特性调整特征维度的重要性权重。例如在目标跟踪中,外观特征的眼部区域可能比服装纹理更重要[^2]。 #### 2. 实现方法 **(1) 加权余弦公式** $$ \cos_{\text{weighted}}(A,B) = \frac{(W \odot A) \cdot (W \odot B)}{\|W \odot A\| \|W \odot B\|} $$ 其中$W$为权重向量,$\odot$表示逐元素乘法 **(2) Python实现示例** ```python import numpy as np def weighted_cosine(a, b, weights): weighted_a = a * weights weighted_b = b * weights return np.dot(weighted_a, weighted_b) / (np.linalg.norm(weighted_a) * np.linalg.norm(weighted_b)) ``` **(3) 深度学习框架集成** ```python import torch import torch.nn as nn class DynamicCosineLayer(nn.Module): def __init__(self, dim_size): super().__init__() self.weights = nn.Parameter(torch.randn(dim_size)) def forward(self, x1, x2): return torch.cosine_similarity(x1*self.weights, x2*self.weights, dim=-1) ``` #### 3. 典型应用场景 | 应用领域 | 权重作用 | 技术特点 | |---------|---------|---------| | 多目标跟踪 | 动态调整外观特征权重 | 提升跨摄像头跟踪鲁棒性 | | 推荐系统 | 用户兴趣权重学习 | 捕获时序变化的偏好特征 | | 异常检测 | 敏感特征维度增强 | 放大关键异常指标的影响 | | 强化学习 | 状态特征重要性调整 | 优化策略网络的收敛速度[^5] | #### 4. 优化策略 - **权重初始化**:使用Xavier初始化保证初始权重分布合理 - **正则化约束**:对权重参数施加L2正则防止过拟合 - **动态调整机制**:通过门控网络生成实时权重 - **对比学习框架**:构造正负样本对优化权重参数 #### 5. 注意事项 1. 权重维度需与特征向量严格对齐 2. 建议对权重进行softmax归一化处理 3. 高维场景需配合降维技术使用 4. 注意梯度消失问题(可配合LayerNorm使用)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

机器不学习我学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值