【自然语言处理】TF/IDF算法

最新推荐文章于 2024-05-03 18:30:12 发布

贾继康

最新推荐文章于 2024-05-03 18:30:12 发布

阅读量1k

点赞数 1

分类专栏：算法文章标签：自然语言处理 TF/IDF算法关键字

本文链接：https://blog.csdn.net/Jiajikang_jjk/article/details/83052777

版权

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

- TF/IDF算法

TF/IDF算法

前言

当我们去了解一篇文章是不是我们所需要时就要去看摘要，看关键字，而对于关键字的提取使用的主要流行的算法就是IF/IDF和TextRank算法，此篇博文重点是对IF/IDF算法的学习。

背景介绍

1：IF/IDF全称Term Frequency-Inverse Document Frequency，中文名称：词频-逆文档频次算法，它是一中基于统计的计算方法。
2：词频-逆文档频次算法（TF/IDF）常用于评估一个文档集中一个词次对某份文档的重要程度。试想一下，一个词对于一个文章越重要，说明这个词越能说明它是关键词。

3：词频-逆文档频次算法（TF/IDF）是由两部分组成，其中TF算法是用于统计一个词在一篇文档出现的频次，IDF算法是统计一个词在文档集的多少个文档中出现。

基本思想

TF算法
一个词在文档中出现的次数越多，则其对文档的表达能力也就越强。
IDF算法
如果一个词在越少的文档中出现，则其对文档的区分能力也就是越强。

公式说明

TF算法
$tf_{ij=\frac{n_{ij}}{\sum_k n_{kj}}}$

$n_{ij}$ 是表示词 $i$ 在文档 $j$ 中出现频次
$\sum_k n_{kj}$ 表示统计文档中每个词出现次数的总和
$tf_{ij}$ 就是它的概率

IDF算法
$idf_i=log(\frac{|D|}{1+|D_i})$

$∣ D ∣$ 是文档集中总文档数
$D_i|$ 是文档集中出现词 $i$ 的文档数量，分母加 $1$ 是为了采用拉普拉斯平滑，避免有部分新的词没有在语料库中出现过导致分母为零的情况出现。

TF-IDF算法
$tf×idf(i,j)=tf_{ij}×idf_i={\frac{n_{ij}}{\sum_k n_{kj}}}×log(\frac{|D|}{1+|D_i})$
说明
计算得到的 $t f \times i d f (i, j)$ 的值越高说明此词就越适合作为关键词，当然对于关键词可能不止一个，可以根据 $t f - i d f$ 的由大到小排序取前 $n$ 个作为关键词。

说明
此次关于TF/IDF算法的学习参考的资料是《python自然语言处理实战核心技术与算法》

贾继康

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
【自然语言处理】TF/IDF算法

文章目录TF/IDF算法前言背景介绍基本思想公式说明TF/IDF算法前言当我们去了解一篇文章是不是我们所需要时就要去看摘要，看关键字，而对于关键字的提取使用的主要流行的算法就是IF/IDF和TextRank算法，此篇博文重点是对IF/IDF算法的学习。背景介绍&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;&amp;nbsp;1：IF/IDF全称Term Frequency-Inve...
复制链接

扫一扫