1、停用词
我们、我、今天,一天,一夏等和我们需要的词没有关系,没什么大的用,不需要,用停用词表进行停用。
2、Tf-idf:关键词提取
Tf:词频,idf:逆词频
先去停用词,再统计词频。词频一样我们认为重要性相同。
我们目的:找到文章中重要的主题,idf,逆文档,目的:某个词在文章中非常少见,但它在这篇文章中多次出现,那么它很可能就反应出这篇文章的特性,正是我们所需要的关键词。
以10
以10为底的。
TF-IDF = 词频(TF)*逆文档率(IDF)
3、文档相似度
句子A:我喜欢看电视,不喜欢看电影。
句子B:我不喜欢看电视,也不喜欢看电影。
分词:
句子A:我/喜欢/看/电视,不/喜欢/看/电影。
句子B:我/不/喜欢/看/电视,也/不/喜欢/看/电影。
语料库:[我,喜欢,看,电视,电影,不,也。]
词频:
句子A:我1,喜欢2,看2,电视1,电影1,不1,也0。
句子B:我1,喜欢2,看2,电影1,电影1,不2,也1。
词频向量:
句子A:[1,2,2,1,1,1,0]
句子B:[1,2,2,1,1,2,1]
word2vec、Gensim将词向量化。
相似度: