C#实现在:
http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx
向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用,这里简单介绍一下其在进行文档间相似度计算时的原理。
假设共有十个词:w1,w2,......,w10,而共有三篇文章,d1,d2和d3。统计所得的词频表(杜撰的,为了便于演示用法)如下:
|
|
w1 |
w2 |
w3 |
w4 |
w5 |
w6 |
w7 |
w8 |
w9 |
w10 |

本文简要介绍了向量空间模型(VSM)在自然语言处理中的应用,特别是在文档相似度计算中的原理。通过词频表展示了如何使用Cosine相似度计算两个文档的相似度,并探讨了降维和倒排词频平滑(IDF)在提高效率和精度方面的作用。
最低0.47元/天 解锁文章
9175

被折叠的 条评论
为什么被折叠?



