C#实现在:
http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。
假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3。统计所得的词频表(杜撰的,为了便于演示用法)如下:
|
w1 |
w2 |
w3 |
w4 |
w5 |
w6 |
w7 |
w8 |
w9 |