我的想法是从TF/IDF入手的.前阵子老师又建议我去看看知网,也大概的看了一下,不是很懂,不过也基本了解是怎么回事.老师给的方向是从文本相似度匹配入手,不要去做搜索引擎,做这一块就行了.奈何我是个贪心的人,总是想去知道
先说说TF/IDF.
TF/IDF计算是基于向量空间的。给定一篇文本,将其切词,得到空间向量(w0,w1……,wn)。其中wi为第i个单词。设每一wi相应的词频为TFi(TF: term frequency),得空间向量(TF0,TF1,TF2……TFn),sigma TFi = 1。
IDF(Inverse document frequency 缩写为IDF,“逆文本频率”)用来计算词的权重问题。假设语料库中全部文档数D,出现关键词W的文档数Dw,IDF = In(D/Dw)。假设总文档数10万篇,出现“网络游戏”的文档数1万篇,出现“货币”文档8万篇,则“网路游戏”的权重IDF=In(10万/1万)=2.30,“货币”权重IDF=In(10万/8万)=0.22。
给定两篇文章,一种判断其相似性的方法就是利用 TF/IDF来计算其空间向量的夹角表示其相似的程度。
设有文章 A、文章B。我们将其切词,并对其每个单词计算TF/IDF,得空间向量A(TF/IDF0……TF/IDFn)记为(a0,a1……an),B(TF/IDF0……TF/IDFn)记为(b0,b1……bn)。空间向量夹角余弦等于: