关键词抽取算法TopicRank

1、文本预处理,分词,POS

2、筛选候选词,保留最长的名词和形容词序列;

3、采用HAC(层次凝聚聚类算法)聚类;(在超过25%重叠词的情况下,认为两个候选序列是相似的)

解释HAC

聚类算法

4、权重计算

w(i,j)为权重,其中 dist(ci, cj ) 是文档中候选关键词 ci 和 cj 的偏移位置的倒数,其中 pos(ci) 表示候选关键词 ci 的所有偏移位置,节点之间全部有连接,无向图。

5、TopicRank 用一个完整的图来表示一个文档,其中主题是顶点,边根据顶点之间语义关系的强度进行加权。 然后,TextRank 的基于图的排序模型用于为每个主题分配一个显着性分数,采用textRank为每个主题打分(无向图)

6、用textRank为节点排序

7 、选择关键词,对于每个主题,选择最具代表性的一个关键词

提取 k 个关键短语精确地覆盖了 k 个主题。 为了找到最能代表一个主题的候选词,有三种策略: 第一个策略是选择关键短语首先出现在文档中; 第二个策略选择出现频率最多的,第三个策略选择集群的质心, 质心是与簇的其他候选者最相似的候选者。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

菜鸟ccc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值