向量模型微调评估指标

指标

1. 准确率(Accuracy)

  • cos_sim-Accuracy@k / dot_score-Accuracy@k
  • 功能:这个指标用来衡量当你的模型做出预测时,正确答案是否出现在前k个推荐结果中。
  • 计算方式:如果在前k个结果中包含至少一个正确答案,这次查询就算作一次成功。将所有查询中成功的次数累加,然后除以总查询次数,得到准确率。
  • 意义:准确率可以直观地反映出模型在前k个结果中找到正确答案的能力,是衡量检索系统初步有效性的基本指标。

2. 精确度(Precision)

  • cos_sim-Precision@k / dot_score-Precision@k
  • 功能:精确度是衡量在模型推荐的前k个结果中,有多少是真正相关或正确的。
  • 计算方式:将正确推荐的项数统计出来,然后除以k(因为总共推荐了k个结果)。
  • 意义:精确度较高意味着用户在查看模型推荐的前k个结果时,会遇到更多相关的内容。这是衡量用户满意度的重要指标之一。

3. 召回率(Recall)

  • cos_sim-Recall@k / dot_score-Recall@k
  • 功能:召回率用来衡量在所有应该被检索出的相关结果中,模型能够找回多少。
  • 计算方式:将正确推荐的项数统计出来,然后除以所有相关结果的总数。
  • 意义:召回率高表示模型能够从大量数据中有效地检索出更多相关结果,尤其在信息全面性要求较高的场景中非常重要。

4. 平均倒数排名(MRR)

  • cos_sim-MRR@10 / dot_score-MRR@10
  • 功能:这个指标用于评估模型返回正确答案的排名情况。
  • 计算方式:对每个查询,找出正确答案第一次出现的位置的倒数,然后对所有查询的这个倒数值取平均。
  • 意义:MRR越高,表明正确答案平均而言排名越前,用户需要查看的无关信息越少,体现了模型的效率。

5. 归一化折扣累计增益(NDCG)

  • cos_sim-NDCG@10 / dot_score-NDCG@10
  • 功能:NDCG考虑到排名的质量和位置,给予排名靠前的正确推荐更高的权重。
  • 计算方式:首先计算每个正确结果基于其位置的折扣累积增益,再将这些值累加并通过理论最大增益进行归一化。
  • 意义:NDCG可以衡量模型不仅仅是找到正确答案,而且能够将最相关的答案排在最前面的能力。

6. 平均精确率(MAP)

  • cos_sim-MAP@100 / dot_score-MAP@100
  • 功能:MAP是评价整体查询效果的指标,计算每个查询的精确率,然后取平均值。
  • 计算方式:对每次查询,计算其精确率,然后对所有查询的精确率取平均值。
  • 意义:MAP高表明模型在多数查询中都能较好地找到相关结果,是评估模型整体性能的重要指标。

计算方法

余弦相似度和点积得分都是用来衡量两个向量之间相似度的常见指标,但它们在计算方式和适用场景上有一些关键的区别:

余弦相似度 (Cosine Similarity)

  • 定义:余弦相似度衡量的是两个向量在方向上的接近程度,而不考虑它们的大小(长度)。
  • 计算方式:余弦相似度通过计算两个向量的点积然后除以这两个向量的模(长度)的乘积来实现。公式为 (\text{cosine similarity} = \frac{\mathbf{A} \cdot \mathbf{B}}{|\mathbf{A}| |\mathbf{B}|}),其中,(\mathbf{A} \cdot \mathbf{B}) 是向量的点积,(|\mathbf{A}|) 和 (|\mathbf{B}|) 是向量的模。
  • 特点:由于归一化处理,余弦相似度的结果是介于-1到1之间的数,其中1意味着两个向量完全一致(方向相同),0表示正交,-1表示完全相反。
  • 适用场景:当我们关心向量的方向而不是其幅度(例如文本数据的词向量)时,余弦相似度特别有用。

点积得分 (Dot Product Score)

  • 定义:点积得分是两个向量在数值上的直接乘积和。
  • 计算方式:点积得分就是两个向量对应元素的乘积之和。公式为 (\mathbf{A} \cdot \mathbf{B} = \sum A_i B_i),其中 (A_i) 和 (B_i) 是向量 (\mathbf{A}) 和 (\mathbf{B}) 的第i个分量。
  • 特点:点积的大小受向量长度的影响较大,因此两个向量的点积不仅取决于它们的方向,还取决于它们的幅度。
  • 适用场景:在需要考虑向量大小(强度或频率)的场合,如推荐系统中的用户和物品特征向量,点积可以很好地工作。

关键区别

  • 关注点不同:余弦相似度关注向量方向的相似性,而点积得分则同时关注方向和大小。
  • 结果范围不同:余弦相似度的结果范围为-1到1,而点积得分则没有固定范围,取决于向量的具体值。
  • 对向量长度的敏感度:余弦相似度通过归一化消除了向量长度的影响,点积得分则保留了这种影响。
  • 21
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

灵海之森

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值