『关键词挖掘』结合 LDA + Word2Vec + TextRank 实现关键词的挖掘

利用 Python,结合 LDA + Word2Vec + Pagerank 实现关键词的挖掘。先用 LDA 方法初步选择出主题及其词分布,接着将每个主题下的词表示为词向量,用相似性表示词与词之间的权重,最后用 TextRank 方法对于主题下的关键词进行二次过滤。


实现思路

文献:融合主题词嵌入和网络结构分析的主题关键词提取方法

主要方法词向量(Word2Vec) + 主题模型(LDA) + 关键词网络分析

这篇文献提供了一种 关键词提取 的思路:

  • 首先利用 LDA 对于数据集的主题进行初步提取,生成 主题 - 词 (m×n) 矩阵;

  • 接着,用 Word2Vec 训练数据集,得到词向量模型;

  • For each t in Topic (m):

    • For each w in KeyWords (n):

      • 利用生成的词向量模型,用余弦法计算该主题下词与词的相似度,作为两点之间的权重;

      • 设置阈值,过滤掉权重较低的词关系,其余的两两词之间连成一条边;

      • 利用 PageRank 方法进行迭代,最后输出 PR 值最高的 TopN 个词作为该主题下的关键词。
        LdaVecNet模型

总结:先用 LDA 方法初步选择出主题及其词分布,接着将每个主题下的词表示为词向量,用相似性表示词与词之间的权重,最后用 PageRank 方法对于主题下的关键词进行二次过滤。


先前准备

在开始关键词提取之前,我希望您已经准备好了以下条件:

  • 已经安装好了 numpy 包:pip install numpy
  • 已经用 LDA 得到了 主题-词 分布
  • 已经训练好了 Word2Vec 模型

如果有疑问,请参考我之前的文章:【用Word2Vec训练中文词向量】 【用Python实现主题模型LDA】

如果一切准备就绪,那就开始吧!!!


牛刀小试

在这一步,主要实现了 参数定义 + 文件读取 + 加载模型 的步骤。

首先是定义函数,主要传入三个参数:

  • simvalue 给定一个最小的相似性值,若词与词之间的相似性大于该值,则构建词与词之间的边
  • alpha 计算 TextRank 时所用,一般为 0.85
  • iter_num 迭代次数
    def __init__(self, simvalue, alpha, iter_num):
        self.word_list = []  # 记录主题-词模型
        self.edge_dict = {
   }  # 记录节点的边连接字典
        self.simvalue = simvalue  # 满足该最小相似性值,词与词之间可构成边
        self.alpha = alpha
        self.iter_num = iter_num  # 迭代次数

接下来是读取 主题-词 文档,保存在" topicword.txt "。每一行为一个主题,每个主题下有30个词,保存在 word_list 中。我一共分了5个主题。
在这里插入图片描述

    # 读取文档,返回一个总的主题-词列表
    def readFile(self):
        with open("topicword.txt", "r", encoding='utf-8') as tw:
            for line in tw:
                self.word_list.append(line.strip().split(" "))
        # print(self.word_list)
        return self.word_list

在这一步的最后,是要加载之前训练好的 Word2Vec 模型。

# 加载Word2Vec模型
    def loadModel(self):
    	self.path = "word2vec.model"  # Word2Vec模型路径
        self.model = word2vec.Word2Vec.load(self.path)
        print("模型加载完成")
        return self.model

计算TR值

  • (1) 首先根据词语之间相似性,构建每个词的相邻词,过滤掉相似性较小的词,返回边的集合
    在这里插入图片描述
    这个图可以帮助理解。对于每一个主题,判断每一个词在不在定义的词典内。若不在词典内,说明还未进行边的连接。对于这个 word ,遍历该主题内的每一个词,计算该词与其余词的向量相似性。若该相似性大于事先定义的 simvalue ,则将其加入 tmp_set。假定 word1 最后返回的 tmp_set 为 tmp_set = { Word0, Word2 },表明 word1 与 word0 和 word2 建立了边连接。最后将它保存到字典中,形式为 { Word1 : Word0, Word 2 }
    def calTR(self):

        # 首先根据词语之间相似性,构建每个词的相邻词,过滤掉相似性较小的词,返回边的集合
        word_list_len = len(self.word_list)  # 主题个数
        term_num = 30  # 每个主题下词的个数
        names = globals()
        for list, t in zip(self.word_list, range(word_list_len)):  # list表示每一个主题-词,t为主题序数,即第几个主题
            names['self.edge_dict_' + str(t)] = {
   }  # 为每一个主题建立一个词典,如第一个主题的词典名称为 self.edge_dict_0
            for index, word in enumerate(list):  # 枚举可以同时遍历索引和值
                if word not in names.get('self.edge_dict_' + str(t)).keys():  # 表明该词还未进行边的连接
                    tmp_set = set()  # set()函数创建一个无序不重复元素集
                    for i in range(term_num):
                        if i == index:
                            continue  # 若为该单词,则跳出本次循环
                        word0 
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值