自然语言处理入门（6）——基于LDA的文章主题生成

最新推荐文章于 2024-05-14 11:04:08 发布

飞鸟2010

最新推荐文章于 2024-05-14 11:04:08 发布

阅读量6k

点赞数 4

分类专栏：自然语言处理文章标签： LDA python 文章主题生成

本文链接：https://blog.csdn.net/FlySky1991/article/details/77623549

版权

自然语言处理专栏收录该内容

9 篇文章 51 订阅

订阅专栏

1. LDA概述

LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。

LDA是一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。它采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

LDA模型的推导过程包括多项式分布、Dirichlet分布和Gibbs抽样等。具体来说，主要在以下几个方面有广泛的应用：
（1）通过Dirichlet分布取样获得生成文档的主题分布和生成主题的词语分布。
（2）通过主题的多项式分布取样，得到当前文档的对应词语的主题。
（3）通过词语的多项式分布采样，得到生成的词语。

2. 基于LDA的文章主题生成

本文使用python下的lda库来获取语料库和计算文章主题。

实现代码如下所示：

# -*- coding: utf-8 -*-
"""
Created on Sun Aug 27 20:51:15 2017

@author: Administrator
"""

import numpy as np
import lda
import lda.datasets

'''
1.导入数据源
'''
#通过LDA库自带的API接口调用路透社的数据
titles = lda.datasets.load_reuters_titles()

for i in range(395):
    print(titles[i])


'''
2.求解P(词语|主题),得到每个主题所包含的单词的分布
'''
X = lda.datasets.load_reuters()
vocab = lda.datasets.load_reuters_vocab()
titles = lda.datasets.load_reuters_titles()
#设置主题数目为20个，每个主题包含8个词语，模型迭代次数为1500次
model = lda.LDA(n_topics=20,n_iter=1500,random_state=1)
model.fit(X)
topic_word = model.topic_word_
n_top_words = 8

for i,topic_dist in enumerate(topic_word):
    topic_words = np.array(vocab)[np.argsort(topic_dist)][:-(n_top_words+1):-1]
    #输出每个主题所包含的单词的分布
    print('Topic{}:{}'.format(i,''.join(topic_words)))

'''
3.求解P(主题|文档),得到文章所对应的主题
'''
doc_topic = model.doc_topic_
for i in range(20):
    #输出文章所对应的主题
    print("{} (top topic:{})".format(titles[i],doc_topic[i].argmax()))

运行结果如下图所示：

这里写图片描述

由上图可知，调用的数据集文章数为395，文章单词个数为84010，文章主题数为20个。部分文章的标题如下图所示：

这里写图片描述

每个主题所包含的单词的分布如下图所示：

这里写图片描述

文章所对应的主题如下图所示（部分，取前20篇文章）：

这里写图片描述

飞鸟2010

关注

4
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理入门（6）——基于LDA的文章主题生成

1. LDA概述LDA（Latent Dirichlet Allocation）是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含词、主题和文档三层结构。所谓生成模型，就是说，我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布，主题到词服从多项式分布。LDA是一种非监督机器学习技术，可以用来识别大规模文
复制链接

扫一扫

专栏目录