在此记录两种常见的文本相似度计算方式:基于VSM论文和基于LDA论文; 这两种方式的不同在于文本表示的不同,LDA与VSM相比,增加了概率的信息,更侧重对语义的挖掘。 在进行文本建模之后,计算相似度的常用距离有: 余弦距离,欧式距离,曼哈顿距离,切比雪夫距离,simhash+汉明距离...详见