TextRank关键词提取算法

参考:百度AI Studio课程_学习成就梦想,AI遇见未来_AI课程 - 百度AI Studio - 人工智能学习与实训社区 (baidu.com)

1.关键词提取算法分类

1.有监督

  •  将关键词提取问题转换成二分类问题,判断每个候选关键词是否为关键词
  • 该类算法,需要一个标注好关键词的文档集合来训练分类模型

2.半监督

  • 需要少量的训练数据,利用这些训练数据来构建关键词提取模型
  • 基于模型对 待处理文本 进行关键词提取
  • 提取后,把这些关键词进行人工过滤,将过滤得到的关键词加入到训练集中,重新训练模型

3.无监督

  • 不需要人工标注的训练集
  • 利用某些方法来发现文本中比较重要的词作为关键词,从而进行关键词提取
    • 基于词图模型的关键词提取
      • PageRank、TextRank
    • 基于统计特征的关键词提取
      • TF、TF-IDF
    • 基于主题模型的关键词提取
      • LDA、LSA、LSI

2.PageRank算法

1. 来源

        Google 创始人拉里·佩奇和谢尔盖·布林于 1997 年构建早期的搜索系统原型时提出的链接分析算法,通过计算网页链接的数量和质量来粗略估计网页的重要性

2.核心思想

  • 链接数量:如果一个网页被很多其他网页链接到,说明这个网页比较重要。也就是PageRank的值会相对较高
  • 链接质量:如果一个PageRank值很高的网页链接到其它网页,那么这个网页的PageRank值会响应地提高。

3.基本原理

        1.先将整个万维网看作是一张有向图,网页构成了图中的节点.每个节点额权重作为其重要性的度量。

        2.如果一个节点由很多其它节点指向它,那么它就很重要。同样的如果这个很重要的节点,它的外链数很少,那么这个被链接的点显然也很重要。

4.算法流程

        1.给每个网页一个PageRank值

        2.通过算法不断更新迭代,直到达到平稳分布为止。

3.TextRank算法

1.特点

        TextRank算法构造的网络是无向有权图。

        除了考虑链接句的重要性之外,还考虑两个句子之间的相似性。

        计算每个句子给它链接句的贡献时,是通过计算权重占总权重的比例来分配的。

        这里的权重即指句子之间的相似度,可通过编辑距离、余弦相似度等来进行计算。

2.总体思想

        1.构建一张关系图来表示文本、词语以及其他实体。

        2. 词语、词语集合、整个句子等都可以作为图中的顶点

        3.在这些顶点之间建立联系(比如词序关系、语义关系、内容相似度等),就能够构建一张合适的关系图。

3.算法流程

        1.将原文本分割成句子。

        2.对每个句子进行分词,并做词性标记,然后去除停用词,只保留指定词性的词(如名词、动词、形容词)

        3.构建词图。

                1.节点集合由以上步骤生成的词组成。

                2.然后根据共现关系,构造任意两个节点之间的边。

                        仅当两个节点对应的词在长度为K的窗口中共现时,它们之间存在边

                        其中,K表示窗口大 小 ,即最多共现K个单词,一般K取2

                        补充共现关系:共同出现的关系。

         4.迭代计算各个节点的权重,直至收敛,得到各节点重要性的分值

        5.对各个节点的权重进行倒序排序,得到最重要的N个单词,作为top-N关键词进行输出。

        6.在原文本中标记top-N关键词,若它们形成了相邻词组,则作为关键词词组提取出来。

4.TextRank关键词提取案例

1.使用jieba分词

用法:jieba.analyse.extract_tags(sentence,topK=5,withWeight=True,allowPOS=())

  • sentence:待提取关键词的原文本
  • topK:返回关键词的数量,重要性从高到低排序
  • withWeight:是否同时返回每个关键词的权重
  • allowPOS:词性过滤,为空表示不过滤,若提供则返回符合词性要求的关键字。

举个例子:

def jieba_test(sentence):
    result=jieba.analyse.extract_tags(sentence,5,withWeight=True,allowPOS=())
    print("jieba分词得到的关键词和权重")
    for i in result:
        print(i)
if __name__=='__main__':
    sentence="分词就是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。"
    jieba_test(sentence)
    TextRank4zh_test(sentence)
   

结果截图:

 2.使用TextRank4zh

1.先导入包 pip install textrank4zh

2.调用函数

        1.analyze函数:对文本进行分析

        2.get_keywords函数:获取最重要的关键词

举个例子: 

def TextRank4zh_test(sentence):

    tr4w=TextRank4Keyword()
    tr4w.analyze(sentence,True,5)
    print("TextRank4zh_test方法得到的关键词")
    for item in tr4w.get_keywords(5,word_min_len=1):
        print(item)
if __name__=='__main__':
    sentence="分词就是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。"
    jieba_test(sentence)
    TextRank4zh_test(sentence)

结果截图:

 

  • 3
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
### 回答1: TextRank提取关键词算法是一种基于图模型的自动摘要和关键词抽取算法,它通过计算文本中的单词之间的相似度,将文本中的单词转化为图中的节点,并通过边的权重来表示单词之间的关系。然后通过PageRank等排序算法,计算每个单词的重要性,从而确定最具代表性的关键词组。这种算法可以有效地自动提取出文本中最具代表性的关键词组并生成文章摘要。 ### 回答2: 随着信息时代的爆发,我们所面临的信息量越来越庞大,而关键词提取就成为了解决信息溢出的关键。因此,Textrank提取关键词算法随之诞生。下面我会详细解释Textrank提取关键词算法是什么,它的原理以及它的应用。 Textrank提取关键词算法是一种基于图模型的文本关键词提取算法。它是利用文本中不同单词之间的相互关系,来计算每个词的权重得分。在这个算法中,每一个单词都是一种节点,节点之间的关系由边来表示。这些边表示单个单词与文本的其他部分的相关性,如句子、段落或文档等。 在Textrank提取关键词算法中,它使用了PageRank算法的一般思想,为节点赋予权重,这些权重反映了单词在文本中的重要性。Textrank计算每个节点的权重分数,度量这个节点对于整篇文本的重要性,并将每一个节点的权重分数排序,最终选择前面的单词作为关键词或短语组。 Textrank提取关键词算法的原理是,首先将文本分成若干段,然后识别文本中的每一个单词,通过识别每个单词之间的关系,建立起图模型,然后采用PageRank算法来计算每个节点的权重,排序并输出权重最高的词作为文本的关键词顺序。 各种专业领域和社会应用,都将Textrank提取关键词算法作为信息检索技术,用于识别和抽取文本中的关键词或短语组。如在搜索引擎中,Textrank算法被广泛应用以提取用户问题或提交内容的相关关键字。在新闻媒体中,Textrank算法可以用于快速浏览新闻摘要,以帮助读者快速找到文章的主题和背景。在科学研究领域中,Textrank算法通常用于简化领域术语和研究文献中的重要内容。 总之,Textrank提取关键词算法是一种用于标识文本中重要信息的有效方法。它使用基于图模型的算法,可以识别文本中的关键字、词组和句子。这种算法在文本处理和信息检索方面具有广泛应用,是信息过滤和自动化分类的重要工具。 ### 回答3: 随着现代信息技术的快速发展,人们所需要处理的文本资料也随之增加。提取文本信息中的关键词组是一种非常重要的文本分析技术。关键词组不仅可以清晰地反映出文本信息的主题,还可以用于文本分类、文本聚类、信息检索和自然语言处理等多个领域。 目前,常用的文本关键词提取算法有很多,其中最知名的就属TF-IDF算法TextRank算法。而相比于TF-IDF算法TextRank算法更加全面、精确,并且能够解决TF-IDF算法中存在的一些“零元问题”。 TextRank算法是通过对词语之间的相似度进行计算,形成一张网状的图结构,并利用网状图的稳定性来进行关键词组的提取。主要的运作原理就是循环迭代,每次都将每个节点更新一下权值。这样就能够让分数更精准的反映出一个节点的权重。 具体来说,TextRank算法通过以下几个步骤来实现关键词组的提取: 1.将文本信息转化为一个无向图,其中每个节点代表一个单词或者短语。 2.在无向图上进行链接建立,若两个节点之间存在相关性,那么就建立一条边。这种相关性可以采用余弦相似度、Jaccard相似度等方法进行计算。 3.初始化每个节点的分数为1.0,在每一轮迭代中,根据节点之间的相似度计算每个节点的分数,然后进行叠加更新,直到收敛为止。 4.根据节点分数的大小,确定文本信息中的关键词组。 总之,TextRank算法能够在大规模文本中进行关键词组的挖掘,这对于人工处理、文本管理以及自然语言处理等方面都有着重要的实际应用价值。近年来,该算法在搜索引擎、新闻摘要、文本分类、推荐算法等领域的使用越来越广泛,未来也将有着更加广泛的应用前景。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Momo_159357

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值