cosine
Jaccard系数(杰卡德系数)
cosine更适合稠密空间,Jaccard和tfidf都适合稀疏空间.
狭义Jaccard相似度,计算两个集合之间的相似程度,元素的“取值”为0或1
对集合A和B,Jaccard相似度计算如下:
Jaccard(A, B)= |A intersectB| / |A union B|
相似度数值在[0, 1]之间,当A==B的时候,为1. 优缺点,就是元素的取值只能是0或者1,无法利用更丰富的信息
由相似度,可以转换成Jaccard距离:
Jaccard distance (A, B) = 1- Jaccard(A, B)
TF-IDF
大概估计文本相似度时,使用TF就可以了。当我们使用文本相似度进行检索的类似场景时(如搜索引擎中的query relevence的计算),此时TF-IDF更好一些。
- tf/tf-idf为每一个词汇计算得到一个数字,而word embedding将词汇表示成向量
- tf/tf