[C++] 实现余弦相似度分数计算

余弦相似度公式:
两个向量间的余弦值可以通过使用欧几里得点积公式求出:
a ⋅ b = ∥ a ∥ ∥ b ∥ cos ⁡ θ . \mathbf{a} \cdot \mathbf{b}=\|\mathbf{a}\|\|\mathbf{b}\| \cos \theta . ab=a∥∥bcosθ.
给定两个属性向量, A A A B B B ,其余弦相似性 θ \theta θ 由点积和向量长度给出,如下所示:
 similarity  = cos ⁡ ( θ ) = A ⋅ B ∥ A ∥ ∥ B ∥ = ∑ i = 1 n A i × B i ∑ i = 1 n ( A i ) 2 × ∑ i = 1 n ( B i ) 2 . \text { similarity }=\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^n A_i \times B_i}{\sqrt{\sum_{i=1}^n\left(A_i\right)^2} \times \sqrt{\sum_{i=1}^n\left(B_i\right)^2}} .  similarity =cos(θ)=A∥∥BAB=i=1n(Ai)2 ×i=1n(Bi)2 i=1nAi×Bi.
其中 A i , B i A_i, B_i Ai,Bi 分别代表向量 A \mathrm{A} A B \mathrm{B} B 的各分量。
给出的相似性范围从-1到1,-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们 乙间是独立的,而在这之间的值则表示中间的相似性或相异性。

声纹识别中常用余弦相似度来判断注册音频和测试音频是否来自同一个说话人,笔者在此实现了两个C++代码,其中一种使用std::inner_product函数。

std::inner_product函数是计算两个向量的内积,在<numeric >头文件中定义。这个函数模板有 4 个参数:前两个参数是定义第 1 个 vector 的输入迭代器,第 3 个参数是确定第 2 个 vector 的开始输入迭代器,第 4 个参数是和的初值。算法会返回 vector 的内积。

代码如下:

float CosineSimilarity(const std::vector<float>& emb1,
                       const std::vector<float>& emb2) {
  CHECK_EQ(emb1.size(), emb2.size());
  float dot = 0.f;
  float emb1_sum = 0.f;
  float emb2_sum = 0.f;
  for (size_t i = 0; i < emb1.size(); i++) {
    dot += emb1[i] * emb2[i];
    emb1_sum += emb1[i] * emb1[i];
    emb2_sum += emb2[i] * emb2[i];
  }
  dot /= std::max(std::sqrt(emb1_sum) * std::sqrt(emb2_sum),
                  std::numeric_limits<float>::epsilon());
  return dot;
}

float InnerCosine(const std::vector<float>& emb1,
                  const std::vector<float>& emb2) {
  CHECK_EQ(emb1.size(), emb2.size());
  float dot = std::inner_product(emb1.begin(), emb1.end(), emb2.begin(), 0.0);
  float emb1_sum = std::inner_product(emb1.begin(), emb1.end(), emb1.begin(), 0.0);
  float emb2_sum = std::inner_product(emb2.begin(), emb2.end(), emb2.begin(), 0.0);
  dot /= std::max(std::sqrt(emb1_sum) * std::sqrt(emb2_sum),
                  std::numeric_limits<float>::epsilon());
  return dot;
}
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值