模型训练基础:什么是强化学习?

目录

强化学习基本概念

强化学习要素

一条强化学习路径

价值函数

状态价值函数

动作价值函数

强化学习与 NLP 相结合的困难点

ChatGPT 与强化学习

ChatGPT 的强化学习概念映射

制作 reward model

总结


强化学习上一次为大众熟知,还是 2017 年围棋人工智能模型 AlphaGO 打败柯洁的时候。AlphaGo 是由 Google DeepMind 开发的人工智能程序,它使用了深度强化学习算法,能够通过自我学习和对弈经验不断提高自己的水平,它充分展现了强化学习的效果和能力。而 ChatGPT 则将强化学习引入了 NLP 领域,展现出类似人的智能效果。

本节主要简单介绍一下强化学习的基本概念,以及它在 NLP 中的建模情况,为学习 RLHF 方法做一个铺垫。

强化学习基本概念

强化学习是一种机器学习方法,旨在让智能体(Agent,即人工智能模型)通过与环境的交互来学习如何做出最优决策(Policy)。在强化学习中,智能体根据所处的环境(Environment)中的状态(State),通过执行动作(Action)来影响环境,并从环境中获得奖励(Reward)或惩罚。智能体的目标是通过学习最大化长期奖励来制定最佳策略。

强化学习非常像生物的进化,通过不断地突变基因,由环境来筛选,进而适应环境,生存下来。强化学习的应用非常广泛,主要有游戏、自然语言处理等领域。

它的基本建模图如下所示。在超级玛丽奥游戏中,马里奥主人公就是一个由人或模型操控的智能体,游戏的每一个关卡,就是强化学习中的环境。我们玩马里奥游戏的过程,实际上就是一个强化学习的最好例子

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

人工智能_SYBH

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值