关键词提取

最新推荐文章于 2024-03-13 20:03:34 发布

Paulzhao6518

最新推荐文章于 2024-03-13 20:03:34 发布

阅读量1.2k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41853758/article/details/82770564

版权

本文介绍了关键词提取的处理流程，包括停用词过滤、词形还原等步骤，以及各种算法如TF-IDF、KEA、RAKE等。关键词具有特定特点，如在文本中频繁出现，且在首部和尾部出现的概率高。关键词抽取分为分配和提取两类，其中基于互信息、左右熵的算法适用于新词发现。对于隐性主题关键词，提出了翻译问题的解决思路。最后，讨论了多语种关键词抽取的挑战，特别是小语种的分词和词形还原问题。

摘要由CSDN通过智能技术生成

简要说一下现有的处理流程：原始语料 -> 进行停用词过滤、词形还原、（可能还有词性标注）、分词 -> 利用算法进行关键词提取 -> 多算法结果融合，生成最终关键词

一、关键词的特点：

关键词是指能够反映文本语料主题的词语或短语。在实际业务中，单个词语的意义不大，主要是短语，而且大多数关键词是名词短语。

1.一段语料中的关键词在该段语料中可能频繁出现，而在其他语料中出现次数较少。

2.针对于总分总结构的文本（如新闻报道），出现在文章首部和尾部位置的词语成为关键词的可能性要远大于只出现在文章中部的词语。

3.在文本中反复出现且关键词附近出现关键词的概率非常大

4.在文本中反复出现且左右出现不同词语的概率非常大

二、关键词抽取概述

关键词抽取从最终的结果反馈上来看，大体可以分为两大类，一是关键词分配，另一个是关键词提取。关键词分配是指，给定一个指定的词库，选取和文章关联度最大的几个词作为该文章的关键词。关键词提取是指，没有指定的词库，从文章中抽取代表性词作为该文章的关键词。（这里存在一个问题，如果关键词是隐性的，不是显性出现在文章中的该怎么办...后边再介绍）目前，大多数领域无关（即无论什么主题什么领域都可以进行关键词提取的）关键词抽取算法和它对应的库都是基于后者的，因此，关键词提取对工业界来说更有意义，后边也主要阐述一些现有的关键词提取的算法。

从现有的算法来看，根据其是否依赖外部知识库，大致可以分为两大类：一是依赖外部知识库：如TF-IDF、KEA、RAKE等算法；另一类则是不依赖外部知识库，该类算法可以解决语言无关以及

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
关键词提取

简要说一下现有的处理流程：原始语料 -&gt; 进行停用词过滤、词形还原、（可能还有词性标注）、分词 -&gt; 利用算法进行关键词提取 -&gt; 多算法结果融合，生成最终关键词一、关键词的特点：关键词是指能够反映文本语料主题的词语或短语。在实际业务中，单个词语的意义不大，主要是短语，而且大多数关键词是名词短语。1.一段语料中的关键词在该段语料中可能频繁出现，而在其他语料中出现次数...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。