论文笔记：Self-Regulated Interactive Sequence-to-Sequence Learning

最新推荐文章于 2022-07-31 12:43:30 发布

Xiao_yanling

最新推荐文章于 2022-07-31 12:43:30 发布

阅读量254

点赞数

分类专栏：论文笔记

本文链接：https://blog.csdn.net/Xiao_yanling/article/details/102702304

版权

该博客探讨了自我调节的交互式序列到序列学习方法，旨在解决主动强化学习中奖励信息长期价值的量化问题。文章介绍了如何通过动态成本的主动强化学习模型来优化人类努力和输出质量之间的平衡，关注不同类型的反馈（如修正、错误标记、翻译质量判断）对自动学习机制的影响。实验结果显示，自我监督在领域适应中表现出良好的效果。

摘要由CSDN通过智能技术生成

Motivation

1.主动强化学习的核心问题是量化reward information的长期价值，但一般假定了每一轮的每个动作的cost是固定的。
2.即使有工作考虑了cost应该要变化，他们也没有考虑多种的feedback形式。

Method

self-regulated interactive learning
在这里插入图片描述
self-regulation的任务是最优的平衡human effort和output quality，关注于那种feedback（corrections, error markings, translation quality judgments)是最优的自动学习机制。

将self-regulation建模为带动态代价的主动强化学习问题。一旦接收一个输入，regulator就选择一种feedback（有代价），learner从人类那里得到feedback后来提升自己的prediction的质量，通过对regulator的惩罚或强化，regulator能加强对后期输入所需feedback种类的选择能力。

强化学习：与环境交互——学习策略——回报最大化

feedback

1.corrections
人类提供完整的修改后的reference。

2.Error marking
对输出进行标记，正确部分标记为1，错误部分标记为0.

3.self-supervision
从自己的输出学习

最低0.47元/天解锁文章

Xiao_yanling

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：Self-Regulated Interactive Sequence-to-Sequence Learning

Motivation1.主动强化学习的核心问题是量化reward information的长期价值，但一般假定了每一轮的每个动作的cost是固定的。2.即使有工作考虑了cost应该要变化，他们也没有考虑多种的feedback形式。Methodself-regulated interactive learningself-regulation的任务是最优的平衡human effort和ou...
复制链接

扫一扫

专栏目录