背景
出发点:
- End-to-end 模型可以将句子规划和实现两步合为一步
- 现有的方法生成的句子开头大多是相同的
创新点:
基于Semantically Conditioned Long Short-Term Memory
(SC-LSTM)模型的改进:
- 增加了一个semantic rerank 的处理过程,并将这个过程的loss 加入SC-LSTM整体loss进行优化
- 对输出句子的第一个词进行控制:在输入时将第一个词的信息单独作为一个特征输入模型
SC-LSTM
SC-LSTM, 引入对话行为的 one-hot 主题向量覆盖机制, 使生成的文本包含特定的主题信息。
考虑到输入的MR中,属性是可以枚举的,所以,用one-hot对MR进行向量表示 d 0 d_0 d0。这其实是一个sentence planner
,因为保证了哪些属性要在最后的文本中生成。用 w t ∈ R M w_{t} \in \mathbb{R}^{M} wt∈RM 表示 t t t时刻的输入向量, d t ∈ R D d_{t} \in \mathbb{R}^{D} dt∈RD 表示 t t t时刻的MR向量, N N N表示SC-LSTM的单元数,那么前向传播过程如下:
( i t f t o t r t g t ) = ( σ σ σ σ tanh ) W 5 n , 2 n ( w t h t − 1 ) \left(\begin{array}{l} i_{t} \\ f_{t} \\ o_{t} \\ r_{t} \\ g_{t} \end{array}\right)=\left(\begin{array}{c} \sigma \\ \sigma \\ \sigma \\ \sigma \\ \tanh \end{array}\right) \mathbf{W}_{5 n, 2 n}\left(\begin{array}{c} w_{t} \\ h_{t-1} \end{array}\right) ⎝⎜⎜⎜⎜⎛itftotrtgt⎠⎟⎟⎟⎟⎞=