机器学习与深度学习系列连载: 第二部分 深度学习(二十) 轮询采样 Scheduled Sampling

计划采样 Scheduled Sampling 和 强化学习辅助

当我们用Seq2Seq模型进行训练和测试的时候,很容易遇到Mismatch的问题,因为训练的时候,不同的timestep输入的是groudTruth的值,但是测试的时候,不同的timestep输入的是生成的值。具体我们看下面的解释。

1. 训练和测试的Mismatch

训练的时候:
在这里插入图片描述

测试的时候:
Testing: The inputs are the outputs of the last time step.
在这里插入图片描述

这会造成什么问题呢? 训练的时候错一步,只一步,测试的时候一步错,步步错!
在这里插入图片描述

2. Scheduled Sampling

我们训练的时候兼顾reference和generation,兼顾的方式是按照概率选择。
在这里插入图片描述
但是选择不是随机的,训练开始的时候,还是以referenc为主,到训练后期,参考自己生成的
在这里插入图片描述

3. 强化学习辅助

通过强化学习,而不是人为设定,进行结果序列生成。 最终的结果的reward决定训练的过程。
在这里插入图片描述

本专栏图片、公式很多来自台湾大学李弘毅老师、斯坦福大学cs229,斯坦福大学cs231n 、斯坦福大学cs224n课程。在这里,感谢这些经典课程,向他们致敬!

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值