非主流自然语言处理——遗忘算法系列(四):关键词提取

本文探讨了词权重计算,介绍了与TF-IDF的关系,指出所定义的词权重公式是tf-idf的加强版,适用于关键词抽取、文本摘要和相似度计算。通过演示程序展示了词库中词的权重排序。
摘要由CSDN通过智能技术生成


一、前言


  前文介绍了利用词库进行分词,本文介绍词库的另一个应用:词权重计算。


二、词权重公式

  1、公式的定义

    定义如下公式,用以计算词的权重:

    

  2、公式的由来

    在前文中,使用如下公式作为分词的依据:

    

    任给一个句子或文章,通过对最佳分词方案所对应的公式进行变换,可以得到:

     


    按前面权重公式的定义,上面的公式可以理解为:一个句子出现的概率对数等于句子中各词的权重之和。

    权重公式前的负号是想使权重是个正值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值