“强化学习7日打卡营-世界冠军带你从零实践”免费课程学习心得

最新推荐文章于 2022-08-04 22:01:25 发布

GeGee的世界

最新推荐文章于 2022-08-04 22:01:25 发布

阅读量345

点赞数

文章标签：机器学习 python 人工智能神经网络算法

本文链接：https://blog.csdn.net/GeGeeWorld/article/details/106978433

版权

“强化学习7日打卡营-世界冠军带你从零实践”免费课程学习心得

1. 课程基本情况
总结

1. 课程基本情况

作为一名AI小白，今年暑期有幸参加了百度AI平台举办的“强化学习7日打卡营-世界冠军带你从零实践”免费课程。课程从6月16日开始，到22日结束，前5日每天晚上8:00到9:30讲解AI强化学习的一种模型。课程结合百度大脑团队自己开发的PaddlePaddle飞桨开源深度学习平台，提供5个案例在线实践练习。课程主要包括①自学阶段的预习课程，②强化学习的概念与核心框架，基于PARL和Gym的仿真实践，③On-Policy的时序差分Sarsa强化学习框架和Off-Policy的时序差分Q-学习，④基于神经网络方法来求解强化学习，⑤基于策略梯度PG求解强化学习，⑥基于DDPG在连续动作空间上求解强化学习。课程主讲为李科浇（飞桨深度学习学院，百度高级研发工程师），班主任为可爱的肖芮老师，还有许多名热情指导的助教。
课程基本内容及安排

1.1 课程初体验

作为小白，以前只是听过AI，机器学习、强化学习、神经网络、卷积神经网、深度学习等等概念，对于这些概念之间的关系，基本是懵的，其实到现在也没完全整明白，至于课程用到的编程语言Python，自学过小甲鱼提供的视频，但只学了十来课时，因为实际使用比较少，后来也不了了之了。6月16日晚上八点半，如约在网上见到科科老师。通过第一次网上授课学习，知道了马尔科夫决策过程（MDP）四元组（状态、动作、奖励、状态转移概率），也大概明白了PARL基本框架：Agent、算法、环境、模型、（状态、行为、反馈函数）。
Paddlepaddel 强化学习基本框架
在课程学习的过程中，逐步了解了一些机器强化学习的基本思路：即在定义奖励函数的过程中，需要合理考虑未来行为（决策）的收益，并进一步可以利用动态规划的框架去定义对未来可能收益的衰减学习过程，进而形成能逐渐逼近期望目标的软更新奖励函数（当然，准不准确完不完整就不知道了）。并且，根据学习行为可以将策略学习分为两类，即On-Policy学习和Off-Policy学习。On-Policy学习使用一个策略（目标策略）根据下一步的实际行为定义预测的反馈函数；而Off-Policy学习使用两类策略（即目标策略和行为策略）根据未来的最优方案来定义预测的反馈函数，尽管在实际行动中可能会发生随机探索（类似遗传算法里的变异）行为。
同时，根据策略的确定与随机特点可以将强化学习行为分为Value-based的策略学习和Policy-based的策略学习。其中Value-based的策略学习是一类确定性策略方法，包括Sarsa、Q-学习、DQN等，Policy-based的策略学习是一类随机性策略方法，包括策略梯度（Policy Gradient）及其深度版Deep Policy Gradient（DPG）和深度确定版DDPG（用于大样本空间或连续空间）。
Value-based和Policy-based 策略学习

1.2 对DQN的基本理解

个人理解，DQN可以简单描述为将强化学习框架与神经网络学习结合起来，即利用神经网络来近似拟合行为与反馈之间的映射关系，进而获得近似的反馈函数，在Q学习中代替Q表格。将神经网络嵌入到强化学习框架中，就构成了深度强化学习（Deep RL）框架。课程学习的第一个DRL框架是DQN，即Q-学习（Q表格？）与神经网络的结合。DQN通过经验池随机（batch）抽样来解决样本关联性和样本利用率低的问题，在监督学习框架下利用固定Q目标（隔一些step才更新Q目标值进而保持这些step中目标函数值不变）来解决算法非平稳的问题。

1.3 基于策略的强化学习

在第四课和第五课主要学习了基于策略（Policy-based）的强化学习框架。第四次课中，科科老师讲了Policy-based的策略是一类随机性策略方法（通过随机抽样实现），包括策略梯度PG和深度确定性策略梯度DDPG。PG通过激活函数Softmax函数（logit函数或tanh）来形成不同策略的选择概率。这里使用的是一阶梯度，而且学习速率等参数主要根据感觉和经验来调整（仙人模式），感觉传统优化理论里的一些知识可能有大的发挥空间，策略梯度和学习速率可以大致对应着传统优化算法里的搜索方向和搜索步长，可以根据分析的问题特性考虑借鉴传统优化算法里丰富的理论知识，提速PG。

在第五次课中，科科老师讲了讲PG扩展到连续动作空间的版本，即将DQN扩展到连续控制动作空间进而利用DQN固定目标网络和经验池的技巧，通过直接输出确定性动作和单步更新的Actor-Critic结构来保证DDPG算法框架的稳定性。
DDPG的基本构成