强化学习7日打卡营----学习心得

最新推荐文章于 2024-08-08 21:16:11 发布

cgq081616

最新推荐文章于 2024-08-08 21:16:11 发布

阅读量402

点赞数

文章标签：深度学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cgq081616/article/details/106883248

版权

非常感谢百度带我进入强化学习的世界里，让我了解强化学习的理论以及实践，通过科科老师讲解以及实验作业，从一个小白慢慢的变成强化学习入门初学者。

课程入口：https://aistudio.baidu.com/aistudio/education/group/info/1335

课程从入门到高级，一步步带你了解强化学习世界，从Sarsa 到Q-learning，到深度学习DQN以及连续动作DDPG。

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
核心思想：智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。

强化学习的核心：

å¼ºåå¦ä¹ æ¨¡å

sarsa核心目标

sarsa更新过程，从环境中得到S‘，根据S‘得到下一步A‘,根据优化函数更新Q表格

Q-learning核心目标

å¨è¿éæå¥å¾çæè¿°

Q-learning更新过程，从环境中得到S‘，选出Q表格中最大的一个,根据优化函数更新Q表格

两者对比

Q-learning是off-policy，而Sarsa是on-policy学习。

Q-learning在更新Q table时，它只会需要Q值最大，但是不一定会选择使这个Q值最大的动作，因为选择哪个动作是由其他的策略决定的，但是Sarsa在更新Q table时，不一定是Q最大的那个，而且接下来会选择此Q对应的action。Q-learning属于勇敢型，无论前方的路上有什么危险，它都会直接走过去，而Sarsa比较保守，一般只是会远远的躲过危险。

随着深度学习的发展，研究者也往往从神经网络中突破强化学习，Q表存储的缺点是当表格需求非常大时，占的空间非常大，这显然非常让费资源，因此引入了DQN，当初学数据结构写过迷宫程序的同学可能会有体会哈，如果计算机空间太小，但是你想设置的地图有特别大呢，可能会导致空间不足，继前人经验，诞生DQN、PG以及DDPG甚至更先进的学习策略。

DQN算法核心

å¨è¿éæå¥å¾çæè¿°

DQN流程----定时更新Q‘，然后使用Q和Q‘进行loss计算，继而更新模型参数

å¨è¿éæå¥å¾çæè¿°

DQN优点

å¨è¿éæå¥å¾çæè¿°

PG算法（Policy Gradient）

PG流程

G更新策略

å¨è¿éæå¥å¾çæè¿°

DDPG算法（Deep Deterministic Policy Gradient）

流程对比

å¨è¿éæå¥å¾çæè¿°

DDPG流程-----同时更新Q网络参数又更新策略网络参数

å¨è¿éæå¥å¾çæè¿°

强化学习世界我们仅仅是入门，需要进一步的去研究和学习

对于初学的小伙伴而言怎么才能有效的完成作业呢？以下是我个人的作业总结：

①使用老师讲解的代码

②调节超参数，如学习率、激活函数

③使用fine-tune思想

#if os.path.exists('model_dir/steps2_70184.ckpt'):

# agent.restore('model_dir/steps2_70184.ckpt')

④有能力的小伙伴可以设计网络结构或者其他参数调节

如果大家感兴趣可以参与百度的课程，也有强化学习入门作业，绝对让你受益匪浅，更上一层楼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习7日打卡营----学习心得

非常感谢百度带我进入强化学习的世界里，让我了解强化学习的理论以及实践，通过科科老师讲解以及实验作业，从一个小白慢慢的变成强化学习入门初学者。课程入口：https://aistudio.baidu.com/aistudio/education/group/info/1335课程从入门到高级，一步步带你了解强化学习世界，从Sarsa 到Q-learning，到深度学习DQN以及连续动作DDPG。强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。