简单共有词判断模型
假设现在有文本A和B, Num(A∩B) 表示A和B中相同词的数量, Num(A∪B) 表示A和B中所有词的数量。那么定义A和B的相似程度为:
Similarity(A,B)=Num(A∩B)Num(A∪B)
TFIDF向量表示
上述共有词方式,只利用了词语的信息,却忽略了词频信息,引入TFIDF将词语向量化,既考虑了Term Frequency词频,又考虑了词语在整个文档中的分布情况。文本A和文本B可以分别表示为:
A=[a