强化学习-01-基本介绍

强化学习是机器学习的一种,解决序列决策问题。通过代理与环境互动,学习最优策略以获取最大奖励。它包括有模型与无模型学习,基于值函数和策略梯度的策略寻找方法,广泛应用于机器人、自然语言处理等领域。关键概念包括代理人、环境、行动空间、状态空间、奖励、策略和价值。
摘要由CSDN通过智能技术生成

强化学习(reinforment learning)

基本介绍

强化学习是机器学习的一个分支,是解决序列决策问题 ,具体而言就是agent(agent理解为计算机或者自己的算法找的一个去与环境交互的代理人)基于观察的环境选择合适的行动来获得最优化的收益。强化学习与人类学习过程极其类似,很好理解。人的学习过程,比如说学习骑自行车,首先,你骑上去,发现平衡不好控制,于是你不断的尝试,一开始也许在自行车往左倾,你也往左,然后你发现车倒了,于是你下次自行车左倾时你尽量不往左。而且发现往车左倾的时候,人往右倾,车子坚持了一下。于是你学到了一些东西,慢慢的一左一右,摇摇晃晃,慢慢平稳最终学会了骑车。从这个例子可以参看Openai的gym的CartPole-v0这个例子。也希望通过后续的学习去完成这一例子。

一根杆子由一个推车支撑着,沿着轨道无摩擦运动,通过向推车施加向左向右得力来维持的直立,每维持一个时间步长就提供+1的奖励。当杆与垂直方向相差超过15度、达到200分或者从中心移动超过2.4个单位的时候,结束一个episode。openai将这一问题视为解决是连续100次实验获得195.0以上的平均奖励。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值