合辑传送门 -->> 数据分析-合辑
目录
TF-IDF:关键词提取
词频(Term Frequency,缩写为TF)
逆文档频率(Inverse Document Frequency,缩写为IDF)
我们能发现到,词频其实代表的是利用当前文章中的该词出现的频率,来代表该词的重要性。而我们也知道像一些常用的词(例如‘你’‘我’‘他’等等)出现的频率很高但并不属于我们要找的关键词,所以单独从词频上确认关键词的方法是行不通的。
而我们利用IDF,通过与语料库进行对比,如果语料库中包含该词的文档数越多,也就代表这词越普遍存在,IDF的取值就越小,TF-IDF的值也相对变小。
文本相似度
简单流程:文本 -> 分词 -> 语料库 -> 词频 -> 词频向量
当然直接从词频比较难表达出文本语意,现在比较常见是做法有word2vec、Gensim(python库)【之后再学习,学完自爱回来不从】
文本相似度可以通过计算向量之间的余弦相似度获得