【论文阅读-未完待续】A Novel Neural Topic Model and Its Supervised Extension

冰淇淋和慕斯蛋糕

已于 2022-03-07 14:44:06 修改

阅读量394

点赞数

分类专栏：深度学习机器学习-算法论文阅读文章标签：概率论机器学习算法

于 2022-03-05 18:33:59 首次发布

本文链接：https://blog.csdn.net/qq_45721997/article/details/123144088

版权

机器学习-算法同时被 3 个专栏收录

17 篇文章 0 订阅

订阅专栏

论文阅读

16 篇文章 1 订阅

订阅专栏

深度学习

12 篇文章 0 订阅

订阅专栏

来源百度就可以
一篇之前看过的文章，但是有些记不住，打算做成博客记录完善一下。

首先直接上模型图。
在这里插入图片描述
1.输入层(g, d):
n-gram g = w1，···，wn，文档ID d∈D，其中D是文档集

2.n-gram嵌入层(le∈R 1×300):
这一层的目标是用分布式嵌入表示来表示每个n-gram。
使用在大型谷歌News数据集(大约1000亿个单词)上训练过的可用工具word2vec1，每个单词或短语由一个300维的嵌入向量表示。
那么对于任意n-gram g，如果g在词汇表中，我们直接使用它的嵌入表示。否则，用它的n个词的嵌入加起来表示。
这里模型与词汇表大小独立（就不是news数据集单词那么大），用双线方圈表示。

3.n-gram-topic层(lt∈R 1×K)
这一层表示输入n-gram的主题表示。
假设主题号为K，每个单词表示为K维向量。该向量采用sigmoid函数的形式，类似于主题模型中的φ
在这里插入图片描述
W2∈R 300×K 表示n-gram嵌入层与主题层之间的权值矩阵。
为了符合主题模型的框架，模型中的主题也被看作是n-grams上的多项分布。因此，归一化n-gram主题分布。

4.主题文档层(ld∈R 1×K)
通过文档查找矩阵表W1∈R |D|×K，可以将文档D转换为向量表示W1(D，😃。
这一层的目的是将W1(d，:)转换为一个主题分布，类似于主题模型中的θ。在这里，我们采用softmax函数来保持概率约束。
在这里插入图片描述
5.评分层(ls∈R)
该层输出n-gram g和文档d的匹配分数，lt(g)和ld(d)的点积。输出的得分ls(g, d)是一个介于0到1之间的概率值，类似于p(g|d)的条件概率。

6.带标签的右半部分
在sNTM中，标签层(ll)被设计在主题-文档层的顶部，与评分层平行。主题文档层为标签层提供输入。反过来，sNTM可以利用标记结果对文档的主题分布进行调优，进一步改进单词主题分布的生成以及(n-gram，d)对的评分结果。在这里，标记结果(ll(d))可以计算为:
在这里插入图片描述
矩阵W3表示每个主题对标注结果的权重。F(·)表示一个激活函数，它依赖于标签的属性。

代价函数/训练：(负采样)
如果n-gram g包含在文档d中，则给出较高的分数，否则给出较低的分数。
具体来说，假设g是一个n-gram，而d pos是一个包含g的文档，我们随机抽样另一个不包含g的文档d neg。对于正例(g, d pos)和负例(g, d neg)，我们将他们的得分保持在Ω经验值为0.5。为了达到这个目的，下面的cost被最小化
在这里插入图片描述

使用BP算法来调整W1,W2。这里用了L2范数，随机梯度下降法(SGD)。设置学习速率为0.01，并设置正则化因子 0.001.

接下来是机翻：
对于sNTM，使用BP算法根据文档的标签更新额外的权重矩阵W3，这也提供了对W1的调整(第7-10行)。对于测试，我们需要执行一个推理步骤，为新文档重新计算一个合适的W1。这类似于NTM的训练过程，但其余的参数都是固定的。由于模型中存在深部结构，BP容易陷入局部最优状态。因此，为了更好地初始化W1和W2，我们设计了一个预训练过程(算法1中的第1行)。首先，我们在n-gram嵌入层和n-gram主题层之间使用了一个自动编码器。在给定n- gram嵌入层le(g)的情况下，我们寻找W2的合适值来重建它。

在这里插入图片描述
其中le ’ (g)为重构嵌入层。考虑到优化目标le '尽可能接近le，我们可以对W2的值进行调优。接下来，为了初始化W1，我们进行了一个基于W2的简化实现。文档的主题表示是通过对文档中包含的所有n-gram的主题表示进行求和并进行规范化得到的。

冰淇淋和慕斯蛋糕

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读-未完待续】A Novel Neural Topic Model and Its Supervised Extension

来源百度就可以一篇之前看过的文章，但是有些记不住，打算做成博客记录完善一下。首先直接上模型图。1.输入层(g, d):n-gram g = w1，···，wn，文档ID d∈D，其中D是文档集2.n-gram嵌入层(le∈R 1×300):这一层的目标是用分布式嵌入表示来表示每个n-gram。使用在大型谷歌News数据集(大约1000亿个单词)上训练过的可用工具word2vec1，每个单词或短语由一个300维的嵌入向量表示。那么对于任意n-gram g，如果g在词汇表中，我们直接使用它的嵌入
复制链接

扫一扫

专栏目录