文档和词项之间的相关度计算汇总

最新推荐文章于 2022-11-28 21:15:24 发布

微电子学与固体电子学-俞驰

最新推荐文章于 2022-11-28 21:15:24 发布

阅读量531

点赞数

分类专栏： Scala与Spark

本文链接：https://blog.csdn.net/appleyuchi/article/details/88674874

版权

119 篇文章 5 订阅

订阅专栏

下面针对《Spark高级数据分析》中的第六章的实验
进行原理上的分析
先来个矩阵 $M_{m·n}$

$M_{m·n}≈U_{m·k}S_{k·k}(V^T)_{k·n}$
P118有一句十分关键的话：
线性代数运算告诉我们重构矩阵中的两个列的余弦相似度
正好等于 $SV^T$ 的相应列的余弦相似度

这里的重构矩阵的意思就是 $M_{m·n}$ 近似后的结果（就是上面等式的右侧）。

$V^T)_{k·1}$ ：表示从 $V_{k·n}$ 中抽取一列,即特定词语
$U_{1·k}$ ：表示从 $U_{m·k}$ 中抽取一行,即特定文档

其中多词项查询相当于：
查询的多个关键词做成词向量，
最后计算该词向量和每个文档的相关度
也就是在模仿前面的“特定词语-每个文档相关度”，
计算的时候把特定词语对应的V中的向量替换成“多个关键词”构成的向量。

关注