强化学习-01-基本介绍

最新推荐文章于 2022-07-12 23:49:23 发布

neil-fu

最新推荐文章于 2022-07-12 23:49:23 发布

阅读量452

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37748396/article/details/86654034

版权

强化学习是机器学习的一种，解决序列决策问题。通过代理与环境互动，学习最优策略以获取最大奖励。它包括有模型与无模型学习，基于值函数和策略梯度的策略寻找方法，广泛应用于机器人、自然语言处理等领域。关键概念包括代理人、环境、行动空间、状态空间、奖励、策略和价值。

摘要由CSDN通过智能技术生成

强化学习(reinforment learning)

基本介绍

强化学习是机器学习的一个分支，是解决序列决策问题，具体而言就是agent(agent理解为计算机或者自己的算法找的一个去与环境交互的代理人)基于观察的环境选择合适的行动来获得最优化的收益。强化学习与人类学习过程极其类似，很好理解。人的学习过程，比如说学习骑自行车，首先，你骑上去，发现平衡不好控制，于是你不断的尝试，一开始也许在自行车往左倾，你也往左，然后你发现车倒了，于是你下次自行车左倾时你尽量不往左。而且发现往车左倾的时候，人往右倾，车子坚持了一下。于是你学到了一些东西，慢慢的一左一右，摇摇晃晃，慢慢平稳最终学会了骑车。从这个例子可以参看Openai的gym的CartPole-v0这个例子。也希望通过后续的学习去完成这一例子。

一根杆子由一个推车支撑着，沿着轨道无摩擦运动，通过向推车施加向左向右得力来维持的直立，每维持一个时间步长就提供+1的奖励。当杆与垂直方向相差超过15度、达到200分或者从中心移动超过2.4个单位的时候，结束一个episode。openai将这一问题视为解决是连续100次实验获得195.0以上的平均奖励。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习-01-基本介绍

强化学习(reinforment learning)基本介绍强化学习是机器学习的一个分支，是解决序列决策问题，具体而言就是agent(agent理解为计算机或者自己的算法找的一个去与环境交互的代理人)基于观察的环境选择合适的行动来获得最优化的收益。强化学习与人类学习过程极其类似，很好理解。人的学习过程，比如说学习骑自行车，首先，你骑上去，发现平衡不好控制，于是你不断的尝试，一开始也许在自行车...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。