自然语言处理TF-IDF关键词提取算法

最新推荐文章于 2024-07-23 21:03:10 发布

mccccccy

最新推荐文章于 2024-07-23 21:03:10 发布

阅读量8.4k

点赞数 8

文章标签： python 自然语言处理

本文链接：https://blog.csdn.net/mccccccy/article/details/123682148

版权

本文介绍了关键词提取的重要性和方法，重点讲解了无监督学习算法中的TF-IDF算法，包括其原理、计算公式和在jieba分词系统中的应用。TF-IDF是一种衡量词语在文档中重要性的方法，适用于信息检索和文本挖掘领域。

摘要由CSDN通过智能技术生成

在这里插入图片描述

1、关键词提取简介

关键词是指能反映文本主题或者主要内容的词语。关键词提取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来，是NLP领域的一个重要的子任务。在信息检索中，准确的关键词提取可以大幅提升效率；在对话系统中，机器可以通过关键词来理解用户意图；在文本分类中，关键词的发现也非常有帮助。关键词能让我们快速了解文章所讲内容，但是网络上写文章的人不会像写论文那样告诉你本文的关键词是什么，这个时候就需要利用计算机自动抽取出关键词，算法的好坏直接决定了后续步骤的效果。
关键词抽从方法来说大致有两种：
第一种是 #关键词分配，就是有一个给定的关键词库，然后新来一篇文档，从词库里面找出几个词语作为这篇文档的关键词；
第二种是 #关键词抽取，就是新来一篇文档，从文档中抽取一些词语作为这篇文档的关键词。
关键词抽取从算法的角度来说主要有两类：
有监督学习算法：将关键词抽取过程视为二分类问题，先抽取出候选词，然后对于每个候选词划定标签，要么是关键词，要么不是关键词，然后训练关键词抽取分类器。当新来一篇文档时，抽取出所有的候选词，然后利用训练好的关键词抽取分类器，对各个候选词进行分类，最终将标签为关键词的候选词作为关键词；
无监督学习算法：先抽取出候选词，然后对各个候选词进行打分，然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同，有不同的算法，例如TF-IDF，TextRank等算法。
jieba分词系统中实现了两种关键词抽取算法，分别是基于TF-IDF关键词抽取算法和基于TextRank关键词抽取算法，两类算法均是无监督学习的算法，本篇文章将来学习基于TF-IDF算法的关键词抽取。

2、TF-IDF算法原理

TF-IDF是在信息检索理论中Term Frequency - Inverse Document Frequency的简写，它是一种数值统计，用于反映一个词对于语料中某篇文档的重要性。在信息检索和文本挖掘领域，它经常用于因子加权。
TF-IDF的基本公式： TF-IDF = TF * IDF，TF-IDF在实际中主要是将二者相乘，也即TF * IDF，TF为词频表示词t在文档d中出现的频率；IDF为反文档频率表示语料库中包含词t的文档的数目的倒数。
由公式可知：一个词在文档中出现的次数越多，其TF值就越大，整个语料库中包含某个词的文档数越少，则IDF值越大，因此某个词的TF-IDF值越大，则认为这个词具有很好的类别区分能力，关键词的概率越大。

TF-IDF的基本思想是：词语的重要性与它在文件中出现的次数成正比，但同时会随着它在语料库中出现的频率成反比下降。

一个文档中多次出现的词总是有一定的特殊意义，但是并不是所有多次出现的词就都是有意义的，如果一个词在所有的文档中都多次出现，那么这个词就没有什么价值了。或者说，如果某个词或者短语在一个文档中出现多次，但是在其他文档中很少出现，就可以认为这个词或短语具有很好的区分性，适合用来对文档进行分类。

TF-IDF算法步骤：

第一步：计算词频(词频是一个词在文章中出现的次数)考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。
$\frac{某个词在文章中出现的次数}{文章的总词数}$