词频-逆文档率TF-IDF(Term Frequency-Iverse Document Frequency)是一种依赖语料库的关键词提取方法。
该方法主要分为三步:
Step1: 计算词频(考虑文章长短不同,需要进行标准化)
词频(TM) = 某词出现的次数 / 文章总词数
Step2: 计算逆文档率(通常会根据语料库预先计算生成 “词 逆文档率” 的idf.txt文件,用于jieba分词)
逆文档率(IDF) = log(语料库的总文档数 / 包含改词的文档数+1)
注:上式中分母加1是为了避免分母为零的情况。
Step3: 计算词频-逆文档率
TF-IDF = TF * IDF
TF-IDF的值与一个词在文档中出现的次数成正比,与该词在整个语料库中的出现成反比。该值越大,则作为关键词的优先级越高。
优点:简单快速。
缺点:1. 仅以“词频”衡量关键词不够全面,因为有时候重要的词可能出现的次数并不够多。
2. 不能体现词的位置信息,词语出现位置靠前与靠后并不是同等重要,往往全文第一段、每段首句的重要性高于其他位置。
3. 如果一个词在A类出现多,在其他类出现的少,但是包含该词的文章总量多,那么该词的逆文档率IDF值小,则TF-IDF值小。但是实际上该词能够标识A类。