【论文阅读-未完待续】A Novel Neural Topic Model and Its Supervised Extension

来源百度就可以
一篇之前看过的文章,但是有些记不住,打算做成博客记录完善一下。

首先直接上模型图。
在这里插入图片描述
1.输入层(g, d):
n-gram g = w1,···,wn,文档ID d∈D,其中D是文档集

2.n-gram嵌入层(le∈R 1×300):
这一层的目标是用分布式嵌入表示来表示每个n-gram。
使用在大型谷歌News数据集(大约1000亿个单词)上训练过的可用工具word2vec1,每个单词或短语由一个300维的嵌入向量表示。
那么对于任意n-gram g,如果g在词汇表中,我们直接使用它的嵌入表示。否则,用它的n个词的嵌入加起来表示。
这里模型与词汇表大小独立(就不是news数据集单词那么大),用双线方圈表示。

3.n-gram-topic层(lt∈R 1×K)
这一层表示输入n-gram的主题表示。
假设主题号为K,每个单词表示为K维向量。该向量采用sigmoid函数的形式,类似于主题模型中的φ
在这里插入图片描述
W2∈R 300×K 表示n-gram嵌入层与主题层之间的权值矩阵。
为了符合主题模型的框架,模型中的主题也被看作是n-grams上的多项分布。因此,归一化n-gram主题分布。
在这里插入图片描述
4.主题文档层(ld∈R 1×K)
通过文档查找矩阵表W1∈R |D|×K,可以将文档D转换为向量表示W1(D,😃。
这一层的目的是将W1(d,:)转换为一个主题分布,类似于主题模型中的θ。在这里,我们采用softmax函数来保持概率约束。
在这里插入图片描述
5.评分层(ls∈R)
该层输出n-gram g和文档d的匹配分数,lt(g)和ld(d)的点积。输出的得分ls(g, d)是一个介于0到1之间的概率值,类似于p(g|d)的条件概率。
在这里插入图片描述
6.带标签的右半部分
在sNTM中,标签层(ll)被设计在主题-文档层的顶部,与评分层平行。主题文档层为标签层提供输入。反过来,sNTM可以利用标记结果对文档的主题分布进行调优,进一步改进单词主题分布的生成以及(n-gram,d)对的评分结果。在这里,标记结果(ll(d))可以计算为:
在这里插入图片描述
矩阵W3表示每个主题对标注结果的权重。F(·)表示一个激活函数,它依赖于标签的属性。

代价函数/训练:(负采样)
如果n-gram g包含在文档d中,则给出较高的分数,否则给出较低的分数。
具体来说,假设g是一个n-gram,而d pos是一个包含g的文档,我们随机抽样另一个不包含g的文档d neg。对于正例(g, d pos)和负例(g, d neg),我们将他们的得分保持在Ω经验值为0.5。为了达到这个目的,下面的cost被最小化
在这里插入图片描述

使用BP算法来调整W1,W2。这里用了L2范数,随机梯度下降法(SGD)。设置学习速率为0.01,并设置正则化因子 0.001.

接下来是机翻:
对于sNTM,使用BP算法根据文档的标签更新额外的权重矩阵W3,这也提供了对W1的调整(第7-10行)。对于测试,我们需要执行一个推理步骤,为新文档重新计算一个合适的W1。这类似于NTM的训练过程,但其余的参数都是固定的。由于模型中存在深部结构,BP容易陷入局部最优状态。因此,为了更好地初始化W1和W2,我们设计了一个预训练过程(算法1中的第1行)。首先,我们在n-gram嵌入层和n-gram主题层之间使用了一个自动编码器。在给定n- gram嵌入层le(g)的情况下,我们寻找W2的合适值来重建它。

在这里插入图片描述
其中le ’ (g)为重构嵌入层。考虑到优化目标le '尽可能接近le,我们可以对W2的值进行调优。接下来,为了初始化W1,我们进行了一个基于W2的简化实现。文档的主题表示是通过对文档中包含的所有n-gram的主题表示进行求和并进行规范化得到的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值