关键词提取

本文介绍了关键词提取的处理流程,包括停用词过滤、词形还原等步骤,以及各种算法如TF-IDF、KEA、RAKE等。关键词具有特定特点,如在文本中频繁出现,且在首部和尾部出现的概率高。关键词抽取分为分配和提取两类,其中基于互信息、左右熵的算法适用于新词发现。对于隐性主题关键词,提出了翻译问题的解决思路。最后,讨论了多语种关键词抽取的挑战,特别是小语种的分词和词形还原问题。
摘要由CSDN通过智能技术生成

简要说一下现有的处理流程:原始语料 -> 进行停用词过滤、词形还原、(可能还有词性标注)、分词 -> 利用算法进行关键词提取 -> 多算法结果融合,生成最终关键词 

一、关键词的特点:

关键词是指能够反映文本语料主题的词语或短语。在实际业务中,单个词语的意义不大,主要是短语,而且大多数关键词是名词短语。

1.一段语料中的关键词在该段语料中可能频繁出现,而在其他语料中出现次数较少。

2.针对于总分总结构的文本(如新闻报道),出现在文章首部和尾部位置的词语成为关键词的可能性要远大于只出现在文章中部的词语。

3.在文本中反复出现且关键词附近出现关键词的概率非常大

4.在文本中反复出现且左右出现不同词语的概率非常大

二、关键词抽取概述

关键词抽取从最终的结果反馈上来看,大体可以分为两大类,一是关键词分配,另一个是关键词提取。关键词分配是指,给定一个指定的词库,选取和文章关联度最大的几个词作为该文章的关键词。关键词提取是指,没有指定的词库,从文章中抽取代表性词作为该文章的关键词。(这里存在一个问题,如果关键词是隐性的,不是显性出现在文章中的该怎么办...后边再介绍)目前,大多数领域无关(即无论什么主题什么领域都可以进行关键词提取的)关键词抽取算法和它对应的库都是基于后者的,因此,关键词提取对工业界来说更有意义,后边也主要阐述一些现有的关键词提取的算法。

从现有的算法来看,根据其是否依赖外部知识库,大致可以分为两大类:一是依赖外部知识库:如TF-IDF、KEA、RAKE等算法;另一类则是不依赖外部知识库,该类算法可以解决语言无关以及

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值