强化学习7日打卡营-世界冠军带你从零实践学习心得-alading

最新推荐文章于 2020-09-13 18:53:34 发布

阿拉丁123

最新推荐文章于 2020-09-13 18:53:34 发布

阅读量347

点赞数

分类专栏：心得体会文章标签： python 强化学习机器学习算法 paddlepaddle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38395721/article/details/106979356

版权

本文是作者参加强化学习集训营的学习总结，包括强化学习的概念、应用、与监督学习的区别、解决问题的方法及常见算法，如Q-learning、Sarsa、DQN和Policy Gradient。在学习过程中，作者通过直接看课件和完成作业，了解了强化学习的基本理论和在游戏、机器人、用户交互等领域的应用。

摘要由CSDN通过智能技术生成

强化学习整体难于深度学习，需要在深度学习的基础上进行学习。这次参加强化学习的集训营，有点力不从心。
主要在于：学校期末考试月，各科大作业贼多，基本上每周要交2个大作业，不是实验报告就是论文，所有的科目都以这两种形式中的一种为考试形式…真的要把我整神。

这次学习的主要方法是，直接看课件然后就完成作业。对于老师的直播课程，我都是结课了以后才补上的，事实证明把需要做的事情，延后完成，真的是一件很累的事情。

写作业主要参考：

微信群的聊天记录，每日作业讨论区的技术分享，以及老师每天发的课件。

作业完成情况：

根据班班节课以后发的总成绩排名，大概就是中间的位置，因为我基本没听课，直接写作业的，能到中间的位置，实际上有点没想到。

下面就概括的总结一下这次主要学习到的强化学习算法和强化学习基本理论思想。

Part1 什么是强化学习

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。
核心思想： 智能体agent在环境environment中学习，根据环境的状态state（或观测到的observation），执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。