Piecewise Latent Variables for Neural Variational Text Processing论文阅读

Abstract

神经变分推理的进步促进了具有连续潜在变量 (如变分自动器) 的强大定向图形模型的学习。希望这样的模型能学会在现实世界的数据中代表丰富的多模式潜在因素, 比如自然语言文本。然而, 目前的模型往往假设简单的原点的潜在变量--如单模高斯分布--无法有效地表示复杂的潜在因素。为了克服这一限制, 我们提出了简单但高度灵活的分段恒定分布。这种分布有能力表示指数级别的潜在目标分布的模式, 同时保持数学上的可处理性。我们的研究结果表明, 将这种新的潜在分布整合到不同的模型中, 可以显著改进自然语言处理任务, 如文档建模和用于对话的自然语言生成。

 

Introduction

变分自动编码器框架的发展为学习大规模、定向的潜在变量模型铺平了道路。希望这一框架将使人们能够学习真实世界数据的生成过程。例如, 新闻文本中的主题和对话对话中的响应通常包含以下非线性 (非平滑)、多模态分布 (即具有多个局部最大值的分布) 的潜在因素

然而, 大多数当前模型假设一个简单的先验形式的多元高斯分布, 以保持数学和计算的可追踪性。这通常是一个非常严格和不现实的假设, 强加给潜在变量的结构。首先, 它对潜在的可变空间施加了一个强大的单模结构;生成模型 (先前分布) 中的潜在变量样本, 所有样本都围绕一个均值进行聚类。第二, 它迫使潜在变量遵循一个完全对称的分布与恒定的 kurdosion;这就很难表示不对称或很少发生的因素。这种对潜在变量的约束增加了下游生成模型的压力 , 而向生成模型又被迫仔细划分每个潜在因子在其中间层中的概率质量。对于复杂的多模态分布 (如文本语料库中的主题分布) 或对话系统中的自然语言响应, 单峰高斯先验抑制了模型提取和表示文本中重要潜在结构的能力。数据。为了学习更有表现力的潜在变量模型, 我们因此需要更灵活, 但可操作的前科。

本文介绍了一种简单的、柔性的、基于分段常数分布的先验分布。我们推导出了一种适用于变分自动编码器框架的分析性、可跟踪的形式, 并对其提出了一种可微的参数化方法。然后, 我们评估在两种自然语言处理任务中, 当作为变分体系结构的先验和近似后部使用时, 分布的有效性: 文档建模和对话的自然语言生成。我们证明, 分段常数分布能够捕获目标分布的元素, 而这些元素是无法由更简单的原点 (如单模高斯) 捕获的。我们在三个文档建模任务上展示了最先进的结果, 并在对话自然语言生成方面展示了改进。最后, 我们定性地说明了分段常数分布如何代表数据中的多模态潜在结构。

 

Neural Variational Learning

关于 vae 的大部分工作都提出了以多元高斯扩散为参数 z 的方法。然而, 这种不切实际的假设可能会严重损害潜在变量模型的表现力。有关详细讨论, 请参见附录 a。这激励了所提出的分段恒定的潜在变量分布、

Piecewise Constant Distribution

我们建议使用分段常数概率密度函数 (pdf) 通过参数化 z 来学习潜在变量。这应该允许 z 表示潜在可变空间中数据分布的复杂方面, 如概率集合的非光滑区域和多种模式

让  n ∈ N是分段常数的数量组件。我们假设 z 是从 pdf 中提取的:

 

 

为了计算变分界, 我们需要利用其逆累积分布函数 (cdf) 从分段常数分布中提取样本。此外, 我们还需要计算前置和后置之间的 kl 发散。附录 b 中导出了 cdf 和 kl 的逆发散量。在训练过程中, 我们必须计算 eq 中变分约束的导数 (1)。这些表达式涉及指标函数的导数, 除了导数未定义的变化点之外, 每个地方都有导数零。然而, 在其变化点准确采样值的概率实际上为零。因此, 我们将这些导数固定为零。在具有整流线性单元的训练网络中也使用了类似的近似值。

 

Latent Variable Parametrizations

在这一节中, 我们开发了高斯变量和我们提出的分段常数潜在变量的参数化。

让 x 成为模型必须生成的当前输出序列 (例如 w1、.、w1)。让 c 是观察到的条件信息。如果任务包含其他条件信息, 则 c 将嵌入此信息。例如, 对于对话, 自然语言生成 c 表示对话历史的嵌入, 而对于文档建模 c = ∅。

对于后验分布, 以前的工作表明, 最好将后验分布参数化为前分布均值和方差的线性插值, 并根据观察 x (Fraccaroet al) 对均值和方差进行新的估计。(2016年)。插值由门控机制控制, 允许模型关闭潜在维度:

Piecewise Constant Parametrization

 

Document Model

 

这个模型作为 h-nvdm。让 v 成为文档词的词汇。让 w 表示一个文档矩阵, 其中行 wi 是1的v 型文档中 i ' th 单词的二进制编码。每个模型都有一个编码器组件 encc (w), 它将文档向量压缩为一个连续的分布式表示, 在此基础上生成近似的后部。对于文档建模, 不考虑词序信息, 也没有其他条件信息可用。因此, 每个模型都使用一个小袋编码器, 定义为多层感知器 (mlp) enc (c = ∅, x) = enc (x)。在初步实验的基础上, 我们选择编码器为具有参数化整流线性激活函数的两层 mlp (为了简单起见, 我们省略了这些参数)。对于近似后, 每个模型都有参数矩阵 wposter a 和向量 b 后 a 为分段潜在变量, 和参数矩阵 wposter μ, wpost 和向量 b 后μ, bpost 为高斯手段和方差。对于前面, 每个模型都有参数向量 b, 而部分向量 a潜在变量, 和向量 b 前μ, bprior 为高斯手段和方差。我们将偏置参数初始化为零, 以便从居中高斯和分段常数原点开始。编码器将随着学习的进展而调整这些原点, 使用门控机制关闭潜在维度。

Dialogue Model

变分分层递归编码解码器 (vhred) 模型以前曾被提出用于对话建模和自然语言生成 (serban 等人, 2017b, 2017b)。该模型使用两级层次结构分解对话: 话语序列 (如句子) 和标记子序列 (如单词)。在与 n 语的对话中, 让自己成为话语。让我成为词汇 v 中的 "我" 字, 作为词汇中的一个-v 型二进制编码。让 mn 成为话语中的单词数。对于每个话语 n = 1,., n, 模型生成一个潜在变量 zn。在此潜在变量上进行了条件, 模型然后生成下一个话语:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

catbird233

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值