LDA学习笔记-Part 1

本文介绍了LDA主题模型的工作原理,包括如何通过狄利克雷分布和吉布斯采样对文档进行主题分类。作者通过开party的例子和机器生成文档的概念,展示了如何利用LDA生成文章并微调参数。文章还探讨了如何通过比较生成文章与原文的损失来优化分布。
摘要由CSDN通过智能技术生成

学习视频参见:

LDA主题模型_哔哩哔哩_bilibili

 笔记内容:

人类可以识别每个单词的含义并对其进行分类,但计算机并不知道各个单词的含义,该如何做呢?

第一部分视频介绍LDA是什么已经狄利克雷分布,第二部分介绍通过吉布斯采样来训练LDA.

问题定义: 有一个文档或者新闻的集合,我们想让其按照主题进行分类。

这里有一个三角形,每个角对应一个主题,然后将所有文档以一种方式扔进三角形里。文档接近他们所属主题的角。问题是如何以最完美的方法将文章放入三角形中,

这里简单的介绍一下思想,作者举了一个例子将LDA视作一台机器,其可以生成文档,然后有多台机器可以生成文档,通过一个判别机制来判别哪台机器生成的文档更接近于待提取主题词的文档,随后提取这台机器的设置(包含单词主题词信息,因需由此生成文章)Tips:这里怎么有生成对抗网络的味道了?生成对抗网络是不是也能做这个主题词提取?简单搜了一下有搞文本生成的了,有机会再去研究。。。

原论文架构如上:

上面可以简单理解为一个文档的生成过程,由LDA的参数及齿轮及齿轮(显然这里是指与Topics和Words相关的概率)相乘得出。

第一和第三个会帮助我们找到一堆主题,第二和四会找到单词。

狄利克雷分布

作者这里举了一个开party的例子,以下图片为俯视图,黄色的点代表人群分布,

这里有一个不成熟的想法,感觉搞一个word2vec(skip-gram)的变体也可以实现上述的分布,当然数学上不是很严谨。

左边通过对应的主题将文档联系起来

 注意这里的调整转纽变成了两个狄利克雷分布,通过调整其内在的参数产生不同的文档

如何生成文档?

它能计算出机器里面生成某个特定文档的可能性

words框中对应的词由第二部分产生

随后根据主题词在单词框中进行采样,Topics的不同的颜色对应不同的单词框,采样得到的单词即为该LDA模型(机器)生成的文章

重复上述过程得到多个文档,由最初的黄色点(对应第一项)及第二项产生

在这里微调按键及齿轮都在概念上进行了替换

由此得到了最佳的设置(分布),类似于机器学习中的参数矩阵

 如何得到主题?

通过查看黄色点的位置得到文章的主题,而后根据主题查看主题词右侧,以此实现主题词提取

根据生成的文章于原文进行对比(损失),找出狄利克雷分布点中最佳排布方式

文章有多长? 

所有生成发文章一样长,有相同的数量的单词,但普通的文章单词数量不一定相同,文章的长度由泊松分布给出,将自己附加到原始的概率公式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

QianMo-WXJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值