Soft Cosine Measure

简介

标准词袋向量空间模型(VSM)是一种高效的、普遍存在于信息检索模型,但它低估了具有相同含义但不同术语的文档的相似性。为了克服这个限制,Sidorov [1] 等人提出了包含术语相似关系的软余弦度量(SCM)。软余弦度量(SCM)是一种方法,允许我们以一种有意义的方式评估两个文档之间的相似性,即使它们没有共同的单词。

Charlet和Damnati [2] 的实验在问答系统证明 SCM 已经优于许多现有的方法。然而,Sidorov等人提出的 [1] 标准正交算法的时间复杂度不切实际,为 O ( n 4 ) O(n^4) O(n4),其中n为词汇量的大小。

Vít Novotný [3] 等人提出了一种计算文档间相似度的算法,并证明了其最坏情况下的时间复杂度为O(1),使 SCM 在现实世界的信息检索系统的部署成为可能。Vít Novotný [3] 等人展示了如何有效地计算内积和文档向量之间的软余弦测度,并且提供了一个基于Gensim1 [4] 的SCM实现。

软余弦度量

文档在VSM中被建模为向量,其坐标对应于特征,比如单词。向量空间中基向量表示如下:

在这里插入图片描述
我们可以认为这些基向量间正交,即

c o s i n e ( e i , e j ) = 0 cosine(e^i, e^j) = 0 cosine(ei,ej)=0

而事实上单词间几乎总是存在一些相似性,这些相似性可以独立于 VSM 例如,使用同义词词典的单词

SCM假设这种相似性可以被建模为这些对象之间的余弦
在这里插入图片描述
其中 f i f_i fi f j f_j fj 是基向量对应的特征, s i m ( ⋅ ) sim(\cdot) sim() 是相似度度量

因此,我们认为我们最初获得向量的基是非正交的

我们的目标仍然是能够计算初始给定的向量在这样一组基下的
c o s i n e ( a , b ) cosine(a, b) cosine(a,b)

在这里插入图片描述

为点积是双线性的,我们有

在这里插入图片描述

从而推导出 SCM 的计算公式:

在这里插入图片描述
其中 s i j = s i m ( f i , f j ) s_{ij} = sim(f_i,f_j) sij=sim(fi,fj)

引用

[1] Grigori Sidorov et al. 2014. Soft similarity and soft cosine measure: Similarity of features in vector space model. Computación y Sistemas, 18, 3, 491–504.

[2] Delphine Charlet and Geraldine Damnati. 2017. SimBow at SemEval-2017 Task 3: Soft-Cosine Semantic Similarity between Questions for Community Question Answering. In Proc. ofthe 11th InternationalWorkshop on Semantic Evaluation (SemEval-2017). ACL, Vancouver, Canada, 315–319. doi: 10.18653/v1/S17-2051.

[3] Vít Novotný. 2018. Implementation Notes for the Soft Cosine Measure. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management (CIKM '18). Association for Computing Machinery, New York, NY, USA, 1639–1642. DOI:https://doi.org/10.1145/3269206.3269317

[4] Radim Řehůřek and Petr Sojka. 2010. Software Framework for Topic Modelling with Large Corpora. English. In Proc. of the LREC 2010 Workshop on New Challenges for NLP Frameworks. ELRA, Valletta, Malta, (May 2010), 45–50. http://is.muni.cz/publication/884893/en.

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值