TF-IDF算法是一个很易懂的关键词提取算法,算法易实现,易懂且易操作,缺陷是将词频作为唯一考虑因素,且对于位置没有敏感性,位置的问题可以通过人为添加权重的方式改善,比如给第一段最后一段,或者每一段的第一句话加高权重。。。(类似于总分,总分总啥的文本结构吧)
TF-IDF算法简单描述:
TF是Term Frequency的缩写,即单纯的计算词频,比如,两句话分别是“我最喜欢吃我做的土豆”,“我最喜欢海”,因为是简介,就不讲究完备性,不将这句话分词,只考虑每个字,那么,第一句话中,“我”出现了两次,其他的字各出现了一次,第二句中,所有的字都出现了一次,那么计算TF的时候,只用将每个字的出现次数除以总字数即可:
TF = 文章中出现次数/文章总词数
【我:0.2,最:0.1,喜:0.1,欢:0.1,吃:0.1,做