文本相似度
方法分类参考https://blog.csdn.net/qq_28031525/article/details/79596376
- 基于关键词匹配
- 基于向量空间
- 基于深度学习
基于关键词匹配
- jaccard相似度
https://zhuanlan.zhihu.com/p/101277851
- TF-IDF
https://zhuanlan.zhihu.com/p/113017752
- BM25
原理:https://blog.csdn.net/qq_28031525/article/details/79596376
代码:
https://zhuanlan.zhihu.com/p/113224707
关于R(d,qi)计分公式的理解:
- WMD
https://zhuanlan.zhihu.com/p/88788961
https://zhuanlan.zhihu.com/p/251344868
http://nooverfit.com/wp/nips-2016%E8%AE%BA%E6%96%87%E7%B2%BE%E9%80%892-supervised-word-movers-distance-%E5%8F%AF%E7%9B%91%E7%9D%A3%E7%9A%84%E8%AF%8D%E7%A7%BB%E8%B7%9D%E7%A6%BB/
基于向量空间
- 对文档中心向量(根据词频,对文档分词w2v向量加权相加所得)进行距离计算(余弦距离、欧式距离等)
https://medium.com/@adriensieg/text-similarities-da019229c894
- 对文档idf向量(根据idf,对文档分词w2v向量加权相加所得)进行距离计算(余弦距离、欧式距离等)