文本关键词提取工具_文本关键词提取的常用方法

本文介绍了两种常用的文本关键词提取方法,包括基于TF-IDF的算法和基于TextRank的算法,详细阐述了每种方法的数据预处理、关键词权重计算和排序过程。
摘要由CSDN通过智能技术生成
前段时间有粉丝问我什么时候更新公众号文章,老shi才突然意识到原来已经很久没有跟大家唠嗑机器学习那些事儿了。今天老shi准备跟大家简单介绍一下文本关键词提取常用的两种技术,即TF-IDF和TextRank。废话不多说,马上进入正题。

1、基于TF-IDF的文本关键词提取方法

首先,什么是TF-IDF?TF-IDF的文中解释为词频-逆文档频率,是文本关键词提取技术中最常用的方法之一。那么什么是词频?词频(Term Frequency,TF),顾名思义就是词的频率。具体来说就是某一指定词语在当前文本中出现的频率。而逆文档频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。TF-IDF的主要思想是:如果某个词语在一篇文章中出现的频率很高,并且它在其他文章中较少出现,则认为该词语能很好地代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库其他文档中出现的频率成反比。TF-IDF的具体计算公式如下:

63865b5724adc6fdd8b8a071f84b8017.png

由以上计算公式可知,TF-IDF是对文本所有候选关键词进行加权处理,最后根据权值对关键词进行排序。假设Dn为测试语料的大小,该算法的关键词提取步骤如下:

(1) 首先对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。分词处理可以采用jieba分词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值