论文笔记:Self-Regulated Interactive Sequence-to-Sequence Learning

该博客探讨了自我调节的交互式序列到序列学习方法,旨在解决主动强化学习中奖励信息长期价值的量化问题。文章介绍了如何通过动态成本的主动强化学习模型来优化人类努力和输出质量之间的平衡,关注不同类型的反馈(如修正、错误标记、翻译质量判断)对自动学习机制的影响。实验结果显示,自我监督在领域适应中表现出良好的效果。
摘要由CSDN通过智能技术生成

Motivation

1.主动强化学习的核心问题是量化reward information的长期价值,但一般假定了每一轮的每个动作的cost是固定的。
2.即使有工作考虑了cost应该要变化,他们也没有考虑多种的feedback形式。

Method

self-regulated interactive learning
在这里插入图片描述
self-regulation的任务是最优的平衡human effort和output quality,关注于那种feedback(corrections, error markings, translation quality judgments)是最优的自动学习机制。

将self-regulation建模为带动态代价的主动强化学习问题。一旦接收一个输入,regulator就选择一种feedback(有代价),learner从人类那里得到feedback后来提升自己的prediction的质量,通过对regulator的惩罚或强化,regulator能加强对后期输入所需feedback种类的选择能力。

强化学习:与环境交互——学习策略——回报最大化

feedback

1.corrections
人类提供完整的修改后的reference。

2.Error marking
对输出进行标记,正确部分标记为1,错误部分标记为0.

3.self-supervision
从自己的输出学习

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值