[学习日志]自然语言处理-斯坦福神经机器翻译&注意力机制

最新推荐文章于 2024-07-13 14:27:17 发布

烫烫烫烫的若愚

最新推荐文章于 2024-07-13 14:27:17 发布

阅读量138

点赞数

文章标签：神经网络深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gjh1716718326/article/details/114386611

版权

神经机器学习 NMT

神经机器翻译的优势

在这里插入图片描述

1.所谓端到端的训练，是指整个模型一起训练，一个输入，一个损失函数
与之相对的是传统机器学习的组合式模型，分别训练
优点是能找到全局最优，而不是局部最优的组合

2.分布式表示，应该是指词向量。与之相对的是1/N

3.更好的发挥上下文，指RNN。与之相对的是N-gram

4.生成更流畅。

NMT模型比较小，可以放在手机上

Attention

问题

早期模型在短句翻译的表现比较优秀，在长句翻译表现较差
在这里插入图片描述
分析原因可能出现在编码结果上，即解码的输入是固定的Y

思想

在这里插入图片描述
既然编码迭代了那么多次，为什么只用最后一次的结果呢？
因而有了源状态池的引入，使得解码器可以按需取用不同阶段的源状态
（甚至同时取用多个状态，并安装不同比例输入）
（其实人类翻译的时候似乎也是这么做的）

实现

在这里插入图片描述
根据上一层解码输出和每一层编码输出，对每层编码输出进行打分
根据分数作为权重，将各层的信息综合起来，作为一个输入表示量
（做一个softmax）

在这里插入图片描述

打分函数 or 注意力函数

在这里插入图片描述
1.编码输出和解码输出做点积运算（相似度）
2.编码输出和解码输出做点积运算（加一个中间权重矩阵，让包含的信息尽可能多而灵活）
3.做一个单层神经网络

关于解码器是如何生成词的

打分法

首先最朴素的想法是给所有候选项打分，穷举
但这显然是不可能的，因为词汇表太大的，复杂度很高

采样法

模型输出候选词的概率分布，根据概率分布进行随机采样
直到句子结尾

缺点就是不确定性，甚至在相同输入的前提下输出都是不同的
那么准确方差必然很大

贪婪搜索

每次选出概率最高的词

束搜索

部分解决贪婪带来的短视问题

烫烫烫烫的若愚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[学习日志]自然语言处理-斯坦福神经机器翻译&注意力机制

神经机器学习 NMT神经机器翻译的优势1.所谓端到端的训练，是指整个模型一起训练，一个输入，一个损失函数与之相对的是传统机器学习的组合式模型，分别训练优点是能找到全局最优，而不是局部最优的组合2.分布式表示，应该是指词向量。与之相对的是1/N3.更好的发挥上下文，指RNN。与之相对的是N-gram4.生成更流畅。NMT模型比较小，可以放在手机上Attention问题早期模型在短句翻译的表现比较优秀，在长句翻译表现较差分析原因可能出现在编码结果上，即解码的输入是固定的Y思想既
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。