Seq2Seq——Attention模型原理解析

最新推荐文章于 2024-02-01 16:56:02 发布

七月听雪

最新推荐文章于 2024-02-01 16:56:02 发布

阅读量1.1k

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_23262411/article/details/98885034

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

https://zhuanlan.zhihu.com/p/37290775 参考了这篇知乎。

Seq2Seq，即通过Encoder将输入语句进行编码得到固定长度的Context Vector向量，（这个编码过程实际上是一个信息有损压缩的过程，也就是说编码器里所有的信息都要压缩在一个Context Vector中），随后再将Context Vector传给Decoder进行翻译结果的生成，在Decoder端生成每个单词时，均参考来自Encoder端相同的Context Vector。

这种方式相对不够灵活，具体而言，当我们在翻译“机器学习”这的词的时候，并不关心这个词组前面的“我”和“爱”这两个字；而在翻译“我”的时候，也不关心“机器学习”这个词组。因此，一种更好的方式就是引入Attention机制，给予当前待翻译的词更多的权重，使得我们翻译每个词时会对源语句有不同的侧重，如下图所示。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Seq2Seq——Attention模型原理解析

https://zhuanlan.zhihu.com/p/37290775 参考了这篇知乎。Seq2Seq，即通过Encoder将输入语句进行编码得到固定长度的Context Vector向量，（这个编码过程实际上是一个信息有损压缩的过程，也就是说编码器里所有的信息都要压缩在一个Context Vector中），随后再将Context Vector传给Decoder进行翻译结果的生成，在De...
复制链接

扫一扫

专栏目录

七月听雪 CSDN认证博客专家 CSDN认证企业博客

码龄10年

366: 原创

4万+: 周排名

171万+: 总排名

24万+: 访问

: 等级

4816: 积分

68: 粉丝

209: 获赞

52: 评论

852: 收藏

私信

关注

热门文章

分类专栏

深度学习 5篇
pytorch 19篇
Linux 2篇
java 60篇
tesnorflow 13篇
计算机基础 45篇
LeetCode 80篇
笔试题 17篇
MySQL 9篇
python 16篇
排序 14篇
数据结构与算法 24篇
二叉树遍历 3篇
Android 12篇
numpy 1篇
pandas 1篇

最新评论

pytorch——nn.Linear()
ttyykx: 非常感谢！！！帮助很大
BiLSTM+CRF
没头脑不高兴社恐: 问下viterbi_decoder中的next_tag_var = forward_var + self.transitions[next_tag]为什么不加feat？要在最后才加？
pytorch——nn.BatchNorm1d()
0xaabb: x_var=x.var(axis=0,unbiased = False) 这里计算方差的时候，需要传入unbiased 取消贝塞尔修正，否则你的代码计算结果和BatchNorm1d计算结果不一致。 BatchNorm1d算子实现是直接除以n的，没有除以n-1
pytorch——embedding层
haha123@: 感谢大佬指点迷津
pytorch——nn.BatchNorm1d()
wanghan0801: nn.BatchNorm2d是用四维的数据做输入，源码里有写，更高的还有nn.BatchNorm3d

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。