关键词提取算法

最新推荐文章于 2024-03-13 20:03:34 发布

refresh&grow

最新推荐文章于 2024-03-13 20:03:34 发布

阅读量1w

点赞数 1

分类专栏： NLP

本文链接：https://blog.csdn.net/ZJL0105/article/details/82230237

版权

Table of Contents

概述

关键词是代表文章重要内容多一组词，对文本聚类、分类、自动摘要等起重要的作用。现实中大量文本不包含关键词，如果我们可以准确的将所有文档都用几个简单的关键词描述出来，就能使人们便捷地浏览和获取信息。类似于NLP其它处理技术，关键词提取算法一般也可以分为有监督和无监督两类。

有监督的关键词提取方法主要是通过分类的方式进行，通过构建一个较为丰富和完善的词表，然后通过判断每个文档和词表中每个词都匹配程度，以类似打标签的方式，达到关键词提取的效果。这种方法精度较高，但是需要大批量的标注数据。另外，每天都有大量新的信息出现，人工维护词表需要很高的人力成本。相对于有监督的方法，无监督的方法既不需要维护词表，也不需要人工标准语料辅助训练。因此这类算法在工程中应用较广，常见的无监督学习算法有TF-IDF算法、TextRank算法和主题模型算法。

TF-IDF算法

传统算法

TF-IDF（Term Frequency－Inverse Document Frequency，词频－逆文档频次算法）是一种基于统计的计算方法，常用于文档集中一个词对某份文档的重要程度。详参TF-IDF与余弦相似性的应用（一）：自动提取关键词。

加权变种

传统的TF-IDF算法仅考虑了词的两个统计信息，对文本的信息利用程度很少。在某些特定的场景中，加上一些辅助信息，例如每个词的词性、出现的位置等，能对关键词提取的效果起到很好的提高作用。在文本中，名词作为一种定义现实实体的词，带有更多的关键信息，可以赋予更高的权重；在一些场景中，文档的起始段落河末尾段落比其它部分的文本更重要，可以对出现在这些位置等词赋于更高权重。结合具体场景，对算法进行合适的改造，可以对结果产生更好的作用。

TextRank算法

TF-IDF算法需要统计每个词在语料库中的多少个文档中出现过，主题模型要通过对大规模的文档学习来发泄文档的隐含主题。TextRank与这些算法有一点不同：它可以脱离语料库的背景，仅对单篇文档进行分析就可以提取该文档的关键词。该算法最早用于文档的自动摘要，基于句子维度的分

最低0.47元/天解锁文章

refresh&grow

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
关键词提取算法

Table of Contents概述TF-IDF算法传统算法加权变种TextRank算法PageRankTextRankLSA/LSI/LDA算法LSA/LSILDA概述关键词是代表文章重要内容多一组词，对文本聚类、分类、自动摘要等起重要的作用。现实中大量文本不包含关键词，如果我们可以准确的将所有文档都用几个简单的关键词描述出来，就能使人们便捷地浏...
复制链接

扫一扫