RL论文阅读【六】Rainbow: Combining Improvements in Deep Reinforcement Learning

Rainbow论文集成了DQN的多种改进,包括Multi-step learning、Distributional RL、Noisy net和算法融合。Multi-step learning通过多步目标改进Q值估计;Distributional RL将Q值输出为分布,提高准确性;Noisy net引入权重噪声以促进探索。通过这些结合,Rainbow在测试中表现出优于其他网络的效果。
摘要由CSDN通过智能技术生成

1 motivation

这篇论文可以理解为把 DQN 的很多改进都用上了,之前 Dueling DQN 其实已经把 Double DQN 和 Prioritized replay 已经用上了,除此之外,Q-learning 还有一个改进是 Multi-step,后来又有人提出了 Distributional RL 和 Noisy net。然后这篇论文的思想就是把这些改进全结合到一起,做一个全能的网络。下面就分别介绍每个具体的改进和如何结合。

2 优化算法

其中 DDQN,Dueling DQN 和 Prioritized replay 之前都介绍过就不再分别介绍了。

DDQN:https://blog.csdn.net/taoyafan/article/details/90951058

Dueling DQN:https://blog.csdn.net/taoyafan/article/details/90745419

Prioritized replay:https://blog.csdn.net/taoyafan/article/details/91909380

下别分别介绍其他优化:

2.1 Multi-step learning

这个优化是 Q-learning 里面就有的东西,在之前我们计算 loss 时,是用的 TD(0) 的方法,i.e. reward 加下一个状态的 Q 作为 target 和 当前

### 强化学习激励大型语言模型推理能力的方法 为了提升大型语言模型在特定任务上的推理能力,采用了一种基于强化学习(RL)的训练方法[^2]。这种方法不仅增强了模型处理复杂问题的能力,还特别关注于提高其在编程、数学、科学以及逻辑推理等领域的表现。 #### 应用大规模强化学习训练过程 具体而言,在对预训练的基础模型进行初步调整之后,采用了类似于先前版本中的大规模强化学习流程来进行进一步优化。此阶段的核心目标在于加强模型对于需要清晰定义的问题及其对应解答路径的理解力和解决效率。值得注意的是,在这个过程中发现了一个有趣现象——当提示涉及到多语种环境下的思考链条时,容易出现不同语言混合使用的状况。为此,研究者们设计并实施了一套专门针对这一挑战的语言一致性奖励机制,旨在鼓励更连贯一致的回答形式,尽管这可能会带来些许性能上的牺牲[^1]。 #### 设计合理的奖励函数 为了平衡准确度与表达质量之间的关系,最终决定将推理任务的成功率同上述提到的语言一致性得分相结合作为整体评价标准的一部分。这意味着每当完成一次迭代更新后,都会依据这两个维度的表现给予相应的反馈信号给到正在接受训练的目标网络结构之中,直至整个系统能够在预期范围内稳定产出高质量的结果为止。 ```python def calculate_final_reward(task_accuracy, language_consistency): """ Calculate the final reward by combining task accuracy and language consistency. Args: task_accuracy (float): Accuracy score of reasoning tasks. language_consistency (float): Proportion of target language vocabulary used in Chain-of-Thought. Returns: float: Final combined reward value. """ return task_accuracy + language_consistency ``` 通过这种方式,可以有效地引导大型语言模型朝着更加擅长处理各类抽象概念的方向发展,同时也确保了输出内容能够保持较高的可理解性和易读性水平。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值