文本关键词提取工具_文本关键词提取的常用方法

最新推荐文章于 2024-09-19 15:09:40 发布

weixin_39568659

最新推荐文章于 2024-09-19 15:09:40 发布

阅读量3.4k

点赞数

文章标签：文本关键词提取工具

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39568659/article/details/111273228

版权

本文介绍了两种常用的文本关键词提取方法，包括基于TF-IDF的算法和基于TextRank的算法，详细阐述了每种方法的数据预处理、关键词权重计算和排序过程。

摘要由CSDN通过智能技术生成

前段时间有粉丝问我什么时候更新公众号文章，老shi才突然意识到原来已经很久没有跟大家唠嗑机器学习那些事儿了。今天老shi准备跟大家简单介绍一下文本关键词提取常用的两种技术，即TF-IDF和TextRank。废话不多说，马上进入正题。

1、基于TF-IDF的文本关键词提取方法

首先，什么是TF-IDF？TF-IDF的文中解释为词频-逆文档频率，是文本关键词提取技术中最常用的方法之一。那么什么是词频？词频(Term Frequency，TF)，顾名思义就是词的频率。具体来说就是某一指定词语在当前文本中出现的频率。而逆文档频率(Inverse Document Frequency，IDF)是一个词语普遍重要性的度量。TF-IDF的主要思想是：如果某个词语在一篇文章中出现的频率很高，并且它在其他文章中较少出现，则认为该词语能很好地代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比，与它在语料库其他文档中出现的频率成反比。TF-IDF的具体计算公式如下：

由以上计算公式可知，TF-IDF是对文本所有候选关键词进行加权处理，最后根据权值对关键词进行排序。假设Dn为测试语料的大小，该算法的关键词提取步骤如下：

(1) 首先对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。分词处理可以采用jieba分词

最低0.47元/天解锁文章

weixin_39568659

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。