TF-Term Frenquency 词频
找到文字中词频,去掉停用词,最后对常见性进行逆排序,找到不常见的词,
这样就能找到该文字的关键词
idf- inverse document frenquency 逆文档频率
TF = 某词出现的次数/该文章的总次数
IDF = log(文库的数量/(包含该词条的文章数+1))
最后TF*IDF得到排序。
比如要找中文库的所有文章,就搜包含"的"的文章数量即可。
TF-Term Frenquency 词频
找到文字中词频,去掉停用词,最后对常见性进行逆排序,找到不常见的词,
这样就能找到该文字的关键词
idf- inverse document frenquency 逆文档频率
TF = 某词出现的次数/该文章的总次数
IDF = log(文库的数量/(包含该词条的文章数+1))
最后TF*IDF得到排序。
比如要找中文库的所有文章,就搜包含"的"的文章数量即可。