强化学习7日打卡营——个人心得总结

最新推荐文章于 2020-10-29 22:06:09 发布

姜饼哥

最新推荐文章于 2020-10-29 22:06:09 发布

阅读量874

点赞数

分类专栏：强化学习文章标签：强化学习 paddlepaddle

本文链接：https://blog.csdn.net/undirectlookable/article/details/106877224

版权

背景

无意间看到了百度AIStudio的7日强化学习入门训练营，一向觉得强化学习很高大上，但又不太明白其中原理，甚是好奇，这种面对小白的入门课程再适合我不过了。而且它竟然是免费的，白嫖它不香吗？下面的总结是课程讲完的时候写的，难免有些疏漏，意识到了再补。
考虑到整理全部的细节有些太费时间，而且对于我这种以后还不一定用得到强化学习的人来说似乎意义不大，所以这里引用若干篇营里优秀同学的总结文章，下面就只写一下自己认为的核心知识点和新的认知吧~

文章链接

[1] 三岁学编程（这位同学整理的很细致）
[2] 伯克利本科生Tiny Tony（这位小哥的数学很强，强烈推荐）
[3] 录屏（后期可能会下架）
以上都是一系列的文章，只放了第一篇的地址。

金句

经验即是：动作（action）->反馈（reward）& 结果（next_obs）
每个人都是过去经验的总和。（每个agent的表现都是通过过去一次次试错的经验学习得来的）你过去的经验，造就现在的你。
监督学习是像人一样去模仿（样本监督，数据独立同分布）,目的是认知；强化学习则是像人一样去自学（试错，反思，数据为序列决策数据），目的是决策。

一些关键概念

下面这张图展示了强化学习中的核心要素。
在这里插入图片描述
其中observation是智能体agent的观测值，而state是环境的状态值，可以想见observation是被包含于state的，尤其是对于多智能体的情况，在本次学习过程中基本可以划个等号。整个的逻辑流程为：环境的初始状态 $s_0$ ->智能体的反应动作 $a_0$ ->环境反馈的奖励 $r_1$ ，环境的当前状态 $s_1$ ->智能体的反应动作 $a_1$ ->环境反馈的奖励 $r_2$ , 环境的当前状态 $s_2$ ->智能体的反应动作 $a_2$ ->… $S A R S A R S A R . . .$ ，著名的Sarsa算法就是基于其learn函数所需要的输入S，A，R，S，A；Q-learning则是S，A，R，S。
在这里插入图片描述
对了，还有一个元素P，状态转移概率，当前状态下的环境在当前动作后转移到某个状态的概率分布，即 $P[s_{t+1},r_t|s_t, a_t]$

最低0.47元/天解锁文章

姜饼哥

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习7日打卡营——个人心得总结

目录背景一些关键概念功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入背景无意间看到了百度AIStudio的7日强化学习入门训练营，一向觉得强化学习很高大上，但又不太明白其中原理，甚是好奇，这种面对小白的入门课程再适合我不过了。而
复制链接

扫一扫