学习视频参见:
笔记内容:
人类可以识别每个单词的含义并对其进行分类,但计算机并不知道各个单词的含义,该如何做呢?
第一部分视频介绍LDA是什么已经狄利克雷分布,第二部分介绍通过吉布斯采样来训练LDA.
问题定义: 有一个文档或者新闻的集合,我们想让其按照主题进行分类。
这里有一个三角形,每个角对应一个主题,然后将所有文档以一种方式扔进三角形里。文档接近他们所属主题的角。问题是如何以最完美的方法将文章放入三角形中,
这里简单的介绍一下思想,作者举了一个例子将LDA视作一台机器,其可以生成文档,然后有多台机器可以生成文档,通过一个判别机制来判别哪台机器生成的文档更接近于待提取主题词的文档,随后提取这台机器的设置(包含单词主题词信息,因需由此生成文章)Tips:这里怎么有生成对抗网络的味道了?生成对抗网络是不是也能做这个主题词提取?简单搜了一下有搞文本生成的了,有机会再去研究。。。
上面可以简单理解为一个文档的生成过程,由LDA的参数及齿轮及齿轮(显然这里是指与Topics和Words相关的概率)相乘得出。
第一和第三个会帮助我们找到一堆主题,第二和四会找到单词。
狄利克雷分布
作者这里举了一个开party的例子,以下图片为俯视图,黄色的点代表人群分布,
这里有一个不成熟的想法,感觉搞一个word2vec(skip-gram)的变体也可以实现上述的分布,当然数学上不是很严谨。
注意这里的调整转纽变成了两个狄利克雷分布,通过调整其内在的参数产生不同的文档
如何生成文档?
它能计算出机器里面生成某个特定文档的可能性
如何得到主题?
文章有多长?
所有生成发文章一样长,有相同的数量的单词,但普通的文章单词数量不一定相同,文章的长度由泊松分布给出,将自己附加到原始的概率公式。