《reinforcement learning:an introduction》第一章《The Reinforcement Learning Problem》总结

由于组里新同学进来,需要带着他入门RL,选择从silver的课程开始。

对于我自己,增加一个仔细阅读《reinforcement learning:an introduction》的要求。

因为之前读的不太认真,这一次希望可以认真一点,将对应的知识点也做一个简单总结。



Reinforcement learning problems involve learning what to do - how to map situations to actions - so as to maximize a numerical reward signal.


RL is different from supervised learning/unsupervised learning.

There is no supervisor (to tell what is best!), only a reward signal, must discover which actions yield the most reward by trying them out

action influence the environment and sub-sequential data; data distribution is not iid

Feedback is (sometimes) delayed, not instantaneous

trade-off between exploration and exploitation

for stochastic task, each action must be tried many times to gain a reliable estimate of its expected reward


  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
强化学习是一种机器学习方法,它致力于教会智能体在一个动态环境中做出最优决策。在强化学习中,智能体通过不断与环境进行交互来学习,并且根据环境的反馈来调整自己的行为。 强化学习的一个核心概念是“奖励”,它是环境对智能体行为的评价。智能体的目标是通过选择能够最大化长期奖励累积的行为策略来学习。在学习的过程中,智能体通过试错和学习的方法逐步改进自己的决策策略。 强化学习涉及到很多基本元素,比如:状态、动作、策略和价值函数。状态是指代表环境的信息,动作是智能体可以执行的动作选择,策略是智能体根据当前状态选择动作的方法,价值函数是用来评估每个状态或动作的价值。这些元素相互作用,并通过学习算法来更新和改善,使得智能体能够做出更好的决策。 强化学习有很多不同的算法,其中最著名的是Q-learning和Deep Q-Network(DQN)。Q-learning是一种基于值函数的学习方法,它通过不断更新状态-动作对的价值来优化策略。而DQN则是在Q-learning的基础上引入了深度神经网络,使得智能体能够处理更复杂的环境和任务。 总之,强化学习是一种通过交互式学习来教会智能体做出最优决策的方法。它在许多领域有广泛的应用,比如人工智能、自动驾驶、游戏AI等。通过不断的试错和学习,智能体可以不断改进自己的行为策略,达到最优性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值