跟李沐学AI：序列到序列seq2seq

最新推荐文章于 2024-10-17 17:26:49 发布

Landy_Jay

最新推荐文章于 2024-10-17 17:26:49 发布

阅读量227

点赞数 6

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Landy_Jay/article/details/142208575

版权

机器翻译

给定一个源语言的句子，自动翻译成目标语言

两个句子可以有不同的长度

例子：机器翻译

Seq2Seq

是一个encoder和decoder的架构。编码器是一个RNN，读取输入句子（可以是双向RNN或LSTM、GRU的模型）。随后将最后一个隐状态传给解码器，解码器使用另一个RNN进行输出。

编码器是一个没有输出的RNN。编码器最后时间步的隐状态作为解码器的初始隐状态。

训练与推理

训练时解码器使用目标句子targets作为输入进行训练。推理时只能用上一时刻的输出作为输入。

衡量生成序列好坏的BLEU

seq2seq需要一次性预测一个句子而不是预测一个词。因此不能使用困惑度proplexity作为衡量指标。

$p_n$ 是预测中所有n-gram的精度，即从uni-gram、bi-gram...n-gram的精度。例子：

标签序列label：ABCDEF和预测序列ABBCD。其中 $p_{uni-gram}=4/5$ 。因为预测序列有5个uni-gram字符，而有4个字符在label中出现，故 $p_{uni-gram}=4/5$ 。同理 $p_2=3/4$ ， $p_3=1/3$ ， $p_4=0$ 。

获取 $p_n$ 后即可计算BLEU：

预测长度 $len_{pred}$ 不能过短，果断产生负数，产生惩罚。同时长匹配有高权重： $p_n$ 中的n越大 $p_n^{1/2^n}$ 越大（ $p_n$ <1）。

总结

Seq2Seq从一个句子生成另外一个句子。

Seq2Seq的编码器和解码器都是RNN。

将编码器最后时间的hidden state作为解码器的初始hidden stae来完成信息传递。

seq2seq常用BLEU来衡量生成序列的好坏。

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。