关键词提取——TF-IDF

词频-逆文档率TF-IDF(Term Frequency-Iverse Document Frequency)是一种依赖语料库的关键词提取方法。

该方法主要分为三步:

Step1: 计算词频(考虑文章长短不同,需要进行标准化)

            词频(TM) =  某词出现的次数  /  文章总词数

Step2: 计算逆文档率(通常会根据语料库预先计算生成 “词  逆文档率” 的idf.txt文件,用于jieba分词) 

            逆文档率(IDF) =  log(语料库的总文档数  /  包含改词的文档数+1)

             注:上式中分母加1是为了避免分母为零的情况。

Step3: 计算词频-逆文档率

            TF-IDF = TF * IDF

TF-IDF的值与一个词在文档中出现的次数成正比,与该词在整个语料库中的出现成反比。该值越大,则作为关键词的优先级越高。

优点:简单快速。

缺点:1.  仅以“词频”衡量关键词不够全面,因为有时候重要的词可能出现的次数并不够多。

             2. 不能体现词的位置信息,词语出现位置靠前与靠后并不是同等重要,往往全文第一段、每段首句的重要性高于其他位置。

             3. 如果一个词在A类出现多,在其他类出现的少,但是包含该词的文章总量多,那么该词的逆文档率IDF值小,则TF-IDF值小。但是实际上该词能够标识A类。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值