上一篇文章:自然语言处理-文本表示-one-hot-编码 中讲了 文本独热编码的表示方法。对该篇文章中的计算结果进行文本相似度的计算。计算方法参考这篇文章:自然语言处理-文本相似度计算
计算词汇之间得欧式距离得:根号2
计算余弦相似度得:0
可见通过one hot编码得到的词汇向量是无法通过欧氏距离和余弦相似度来评估文本的相似度的。原因是由于one hot编码得到的举证为稀疏矩阵,0较多。
解决方案:采用词向量的方式对文本进行表示,词向量举证为稠密矩阵,维度较少,计算效率高,关于训练词向量,将会写在后面的章节中。
谢谢阅读,如有建议请提出!