强化学习(一)——强化学习概念、方法汇总及游戏例子

本文介绍了强化学习的基本概念,将其与监督学习进行了对比,并详细阐述了强化学习的不同方法,包括Model-free与Model-based RL,Policy-based和Value-based RL,以及Monte-Carlo和Temporal-Difference更新策略。此外,还提到了在线学习和离线学习的区别。通过模拟视频资源,读者可以更直观地理解强化学习的应用。
摘要由CSDN通过智能技术生成

一、什么是强化学习

监督学习:有数据和数据对应的标签,根据这些数据和标签进行学习,从而判断出新的数据属于哪一类标签。

强化学习:比监督学习更进一步,一开始就没有数据和对应的标签。通过在环境中尝试获取数据和标签,然后再学习哪些数据对应哪些标签。通过学习到的规律,尽可能选择能带来高分的行为。比如Alpha go,让机器不断更新自己的行为准则,学会下围棋,从而得到高分。

我感觉监督学习更适合分类,而强化学习帮助你做一个可以取得高分的决定,也就是指导你怎么做。那么强化学习和深度学习有什么区别呢?他们都属于机器学习的分支,强化学习就像人的大脑,帮你做决策,而深度学习是机器学习的一个模型:深度神经网络(DNN),主要用于图像处理和自然语言处理。

二、强化学习的方法

(1)Model-free RL 和Model-based RL

Model-free RL:不理解环境是什么,环境给了什么就是什么,按部就班。

Model-based RL:理解环境是什么,也就是学会用一个模型来为环境建模。建模也就是想象力。

(2)Policy-based RL基于概率和Value-based RL基于价值

Policy-based RL:输出的是不同动作的概率,但每种动作都可能被选中。

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值