Lexical Model

瑾瑕Y

已于 2022-03-15 17:34:38 修改

阅读量1.1k

点赞数

分类专栏：笔记文章标签：机器翻译机器学习自然语言处理

于 2022-03-15 17:11:27 首次发布

本文链接：https://blog.csdn.net/Mr_Carrot/article/details/123506733

版权

笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

Lexical Model

本篇文章是针对《Improving Lexical Choice in Neural Machine Translation》这篇论文的一些理解。同时这个模型还在NAACL 2018 Improving Lexical Choice in Neural Machine Translation fix 这个视频中大概介绍了。本篇是基于这个视频的笔记。

首先在机器翻译当中，我们需要在词表里面找每个词的概率。一般常出现的词的概率就会高一些，每个单词都可以用一个词向量表示。比如2018和1452这两个数字。2018出现次数就比较多，反应到词表中对应的就是2018这个词的词向量的长度很长。在翻译阶段，hidden state要和对应的词向量点乘，求出hidden state和每个单词的score值。假如我们的reference翻译是1452，但是由于2018这个词向量长度大于1452，就会导致2018的得分更高。如下图所示。
在这里插入图片描述
其中A为1452的词向量，B为2018的词向量。在h上的投影就是对应A，B的得分。
解决这个问题可以采用将A，B的词向量都归一化，把他们的长度都变得一样长，这样A与h的夹角跟小，得分更大。
本篇介绍的就是另外一直方法，lexical model。先上图。
在这里插入图片描述

蓝色为encoder端，红色为decoder端。lexical model就是将输入直接连接到输出层，加大输入对输出层的影响。这样稀有单词也能获得更高的分数。
首先将输入的单词采用当前的attention形成一个新的context vector， $c_e$ , 每一个decoder时间都采用当前时间的attention。然后再将新的 $c_e$ 传到一个残差的FFNN当中，得到 $l_{lex}$ 再将 $l_{lex}$ 和 $l_{lnmt}$ 相加输入到一个词表大小的输出层当中，得到每个词的输出概率。这样稀有词的输出概率就会变高。达到我们的初始目标。

瑾瑕Y

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Lexical Model

Lexical Model本篇文章是针对《Improving Lexical Choice in Neural Machine Translation》这篇论文的一些理解。同时这个模型还在NAACL 2018 Improving Lexical Choice in Neural Machine Translation fix 这个视频中大概介绍了。本篇是基于这个视频的笔记。首先在机器翻译当中，我们需要在词表里面找每个词的概率。一般常出现的词的概率就会高一些，每个单词都可以用一个词向量表示。比如2018和
复制链接

扫一扫