基于TF-IDF的文本相似度计算 相似度就是去量化的比较两个事物的一种度量,实质计算机能够识别的就是二进制符号,所以对于相似度的计算可以是文本、音频、图片等方面。 首先,介绍一种最为简单的相似度计算方法:余弦相似度 余弦相似度的思想就是把两个向量的夹角进行余弦值计算,取值范围应该在0和1之间