1)Term Frequency
TF(w)=某网页上关键词出现的频率/该网页的总词数
2)Inverse Document Frequency
IDF=log(D/Dw),其中D为网页的总数,Dw为出现关键词的网页数
最后网页与关键词的相关性=TFw*IDFw
越大越相关该算法还可以做关键词提取,文本相似性(余弦相似度),搜索,文献分类等,但是无法处理一词多义、一意多词的现象。
1)Term Frequency
TF(w)=某网页上关键词出现的频率/该网页的总词数
2)Inverse Document Frequency
IDF=log(D/Dw),其中D为网页的总数,Dw为出现关键词的网页数
最后网页与关键词的相关性=TFw*IDFw
越大越相关该算法还可以做关键词提取,文本相似性(余弦相似度),搜索,文献分类等,但是无法处理一词多义、一意多词的现象。