Lexical Model

Lexical Model

本篇文章是针对《Improving Lexical Choice in Neural Machine Translation》这篇论文的一些理解。同时这个模型还在NAACL 2018 Improving Lexical Choice in Neural Machine Translation fix 这个视频中大概介绍了。本篇是基于这个视频的笔记。

首先在机器翻译当中,我们需要在词表里面找每个词的概率。一般常出现的词的概率就会高一些,每个单词都可以用一个词向量表示。比如2018和1452这两个数字。2018出现次数就比较多,反应到词表中对应的就是2018这个词的词向量的长度很长。在翻译阶段,hidden state要和对应的词向量点乘,求出hidden state和每个单词的score值。假如我们的reference翻译是1452,但是由于2018这个词向量长度大于1452,就会导致2018的得分更高。如下图所示。
在这里插入图片描述
其中A为1452的词向量,B为2018的词向量。在h上的投影就是对应A,B的得分。
解决这个问题可以采用将A,B的词向量都归一化,把他们的长度都变得一样长,这样A与h的夹角跟小,得分更大。
本篇介绍的就是另外一直方法,lexical model。先上图。
在这里插入图片描述
在这里插入图片描述
蓝色为encoder端,红色为decoder端。lexical model就是将输入直接连接到输出层,加大输入对输出层的影响。这样稀有单词也能获得更高的分数。
首先将输入的单词采用当前的attention形成一个新的context vector, c e c_e ce, 每一个decoder时间都采用当前时间的attention。然后再将新的 c e c_e ce传到一个残差的FFNN当中,得到 l l e x l_{lex} llex再将 l l e x l_{lex} llex l l n m t l_{lnmt} llnmt相加输入到一个词表大小的输出层当中,得到每个词的输出概率。这样稀有词的输出概率就会变高。达到我们的初始目标。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值