前段时间有粉丝问我什么时候更新公众号文章,老shi才突然意识到原来已经很久没有跟大家唠嗑机器学习那些事儿了。今天老shi准备跟大家简单介绍一下文本关键词提取常用的两种技术,即TF-IDF和TextRank。废话不多说,马上进入正题。
1、基于TF-IDF的文本关键词提取方法
首先,什么是TF-IDF?TF-IDF的文中解释为词频-逆文档频率,是文本关键词提取技术中最常用的方法之一。那么什么是词频?词频(Term Frequency,TF),顾名思义就是词的频率。具体来说就是某一指定词语在当前文本中出现的频率。而逆文档频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量。TF-IDF的主要思想是:如果某个词语在一篇文章中出现的频率很高,并且它在其他文章中较少出现,则认为该词语能很好地代表当前文章的含义。即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库其他文档中出现的频率成反比。TF-IDF的具体计算公式如下:由以上计算公式可知,TF-IDF是对文本所有候选关键词进行加权处理,最后根据权值对关键词进行排序。假设Dn为测试语料的大小,该算法的关键词提取步骤如下:
(1) 首先对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作。分词处理可以采用jieba分词