TextRank算法及TF-IDF算法基本原理

最新推荐文章于 2024-04-07 16:17:17 发布

fengyinhesystem

最新推荐文章于 2024-04-07 16:17:17 发布

阅读量1.4k

点赞数 3

文章标签： python 机器学习

本文链接：https://blog.csdn.net/fengyinhesystem/article/details/118928515

版权

本文介绍了TextRank算法及其在关键词提取和关键句识别中的应用，该算法基于PageRank改进，通过共现关系构建图并迭代计算节点权重。同时，也阐述了TF-IDF统计方法，它是评估词在文件集中重要性的标准，适用于关键词抽取。二者在信息技术领域文本分析中发挥重要作用。

摘要由CSDN通过智能技术生成

1.TextRank算法

TextRank算法是一种文本排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它能够从一个给定的文本中提取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法提取出该文本的关键句。

TextRank算法构造的网络中的边是无向有权边。TextRank算法的核心公式如下：

WS(Vi)：节点 $\large i$ 的权重。

d：阻尼系数，在PageRank算法中为按照超链接进行浏览的概率，在TextRank算法中视为通过边跳转到下一个节点的概率，一般取经验值为0.85

1-d：在PageRank算法为浏览者随机跳转到一个新网页的概率在TextRank算法中视为随机跳转到一个新节点的概率。

：表示两个节点之间的边连接具有不同的重要程度。

：与 $\large i$ 相连的各个点

： $\large j$ 点到其他边的权重和。

公式的意思即：TextRank中一个单词 $\large i$ 的权重取决于与在 $\large i$ 前面的各个点 $\large j$ 组成的 $\large (j,i)$ 这条边的权重，以及 $\large j$ 这个点到其他其他边的权重之和。

TestRank关键词提取的具体步骤如下：

（1）把给定的文本T按照完整句子进行分割，即

（2）对于每个句子，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，如名词、动词、形容词，即，其中是保留后的候选关键词。

（3）构建候选关键词图G = (V,E)，其中V为节点集，由（2）生成的候选关键词组成，然后采用共现关系（co-occurrence）构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词。

（4）根据上面公式，迭代传播各节点的权重，直至收敛。

（5）对节点的权重进行倒序排序，从中得到最重要的t个单词，作为top-t关键词。

（6）对于得到的top-t关键词，在原始文本中进行标记，若它们之间形成了相邻词组，则作为关键词组提取出来。

从给定文本中提取关键句时，将文本中的每个句子分别看作一个节点，如果两个句子有相似性，则认为这两个句子对应的节点之间存在一条无向有权边，衡量句子之间相似性的公式如下：

：分别为 $\large i$ ， $\large j$ 两个句子。

：句子中的词。

该公式中，分子为同时出现在两个句子中同一个词的数量，分母通过对句子中的个数求对数后取和、以用于遏制较长句子在相似度计算中的优势。

根据以上相似度计算公式循环计算任意两个节点之间的相似度，设置阈值去掉两个节点之间相似度较低的边连接，构建出节点连接图，然后迭代计算每个节点的TextRank值，排序后选出TextRank值最高的几个节点对应的句子作为关键句。

2.TF-IDF算法

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

(1)TF是词频

词频（TF）表示词条（关键字）在文本中出现的频率。

这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。

公式：

即：

其中 $n_{i,j}$ 是该词在文件 $d_{j}$ 中出现的次数，分母则是文件 $d_{j}$ 中所有词汇出现的次数总和。
(2)IDF是逆向文件频率(Inverse Document Frequency)
逆向文件频率 (IDF) ：由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力。需要一个语料库（corpus），用来模拟语言的使用环境。