关键词提取

技术调研

目前比较常用的关键词提取算法都是基于无监督算法。对数据的要求低,不需要人工标注语料辅助训练。如TF-IDF算法和TextRank算法。

TF-IDF算法

TF-IDF是一种数值统计方法,用于反映一个词对于预料中某篇文档的重要性,它的主要思想为:如果某个词在一篇文档中出现的频率高,即TF高;并且在其他文档中很少出现,即IDF高,则认为这个词具有很好的类别区分能力。

TextRank算法

此种算法的一个重要特点是可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。基本思想来源于Google的PageRank算法。这种算法是1997年,Google创始人拉里.佩奇和谢尔盖.布林在构建早期的搜索系统原型时提出的一种链接分析算法。

以上两算法的对比

tf-idf注重词频,词频和idf的乘积越大越关键,textrank注重词语之间的关联,和别的词关联性越大的词越重要。

算法评估

以上两种关键词提取算法均可以选择topN(N=5或10)个关键词输出。输出的关键词在语义上均符合要求。

由于该任务主观性太强,没有公开的数据集和成熟的评价标准,测试集由于太主观也很难标注,因此算法评估多是主观判断。

举数据集中的一个例子:

"您的担心也是很多客户所关心的问题,建设银行运营客户的担忧,特别推出了48小时,是卡保障服务,为客户承担信用卡丢失或是最后在挂失前48小时内发生的被盗用损失更有升级版的保障交易安全卫士只需每月4元即可享受不到48小时挂失,实现的限制无论交易是否通过密码验证,因信用卡丢失是最后发生的盗用交易或者并非因为客户原因造成的信息泄露后发生互联网订购、邮购等盗用的都能提供保障彻底解决客户的用卡安全的担忧。"

在TextRank上提取的关键词为"客户 发生 小时 交易 保障 挂失 信用卡 丢失 泄露 信息"。

在TF-IDF上提取的关键词为"交易 保障 小时 发生 客户 挂失 丢失 盗用 担忧 特别"。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值