强化学习7日打卡营-世界冠军带你从零实践学习心得-alading

本文是作者参加强化学习集训营的学习总结,包括强化学习的概念、应用、与监督学习的区别、解决问题的方法及常见算法,如Q-learning、Sarsa、DQN和Policy Gradient。在学习过程中,作者通过直接看课件和完成作业,了解了强化学习的基本理论和在游戏、机器人、用户交互等领域的应用。
摘要由CSDN通过智能技术生成

强化学习整体难于深度学习,需要在深度学习的基础上进行学习。这次参加强化学习的集训营,有点力不从心。
主要在于:学校期末考试月,各科大作业贼多,基本上每周要交2个大作业,不是实验报告就是论文,所有的科目都以这两种形式中的一种为考试形式…真的要把我整神。

这次学习的主要方法是,直接看课件然后就完成作业。对于老师的直播课程,我都是结课了以后才补上的,事实证明把需要做的事情,延后完成,真的是一件很累的事情。

写作业主要参考:

微信群的聊天记录,每日作业讨论区的技术分享,以及老师每天发的课件。

作业完成情况:

根据班班节课以后发的总成绩排名,大概就是中间的位置,因为我基本没听课,直接写作业的,能到中间的位置,实际上有点没想到。

下面就概括的总结一下这次主要学习到的强化学习算法和强化学习基本理论思想。

Part1 什么是强化学习

强化学习(英语:Reinforcement learning,简称RL)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
核心思想: 智能体agent在环境environment中学习,根据环境的状态state(或观测到的observation),执行动作action,并根据环境的反馈 reward(奖励)来指导更好的动作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值