目录
背景
无意间看到了百度AIStudio的7日强化学习入门训练营,一向觉得强化学习很高大上,但又不太明白其中原理,甚是好奇,这种面对小白的入门课程再适合我不过了。而且它竟然是免费的,白嫖它不香吗?下面的总结是课程讲完的时候写的,难免有些疏漏,意识到了再补。
考虑到整理全部的细节有些太费时间,而且对于我这种以后还不一定用得到强化学习的人来说似乎意义不大,所以这里引用若干篇营里优秀同学的总结文章,下面就只写一下自己认为的核心知识点和新的认知吧~
文章链接
[1] 三岁学编程(这位同学整理的很细致)
[2] 伯克利本科生Tiny Tony(这位小哥的数学很强,强烈推荐)
[3] 录屏(后期可能会下架)
以上都是一系列的文章,只放了第一篇的地址。
金句
- 经验即是:动作(action)->反馈(reward)& 结果(next_obs)
- 每个人都是过去经验的总和。(每个agent的表现都是通过过去一次次试错的经验学习得来的)你过去的经验,造就现在的你。
- 监督学习是像人一样去模仿(样本监督,数据独立同分布),目的是认知;强化学习则是像人一样去自学(试错,反思,数据为序列决策数据),目的是决策。
一些关键概念
下面这张图展示了强化学习中的核心要素。
其中observation是智能体agent的观测值,而state是环境的状态值,可以想见observation是被包含于state的,尤其是对于多智能体的情况,在本次学习过程中基本可以划个等号。整个的逻辑流程为:环境的初始状态 s 0 s_0 s0->智能体的反应动作 a 0 a_0 a0->环境反馈的奖励 r 1 r_1 r1,环境的当前状态 s 1 s_1 s1->智能体的反应动作 a 1 a_1 a1->环境反馈的奖励 r 2 r_2 r2, 环境的当前状态 s 2 s_2 s2->智能体的反应动作 a 2 a_2 a2->… S A R S A R S A R . . . SARSARSAR... SARSARSAR...,著名的Sarsa算法就是基于其learn函数所需要的输入S,A,R,S,A;Q-learning则是S,A,R,S。
对了,还有一个元素P,状态转移概率,当前状态下的环境在当前动作后转移到某个状态的概率分布,即 P [ s t + 1 , r t ∣ s t , a t ] P[s_{t+1},r_t|s_t, a_t] P[st+1,rt∣st