我的强化学习笔记

最新推荐文章于 2024-06-26 14:21:05 发布

Agent1998

最新推荐文章于 2024-06-26 14:21:05 发布

阅读量541

点赞数

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuxin16610553410/article/details/90105594

版权

强化学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

为了准备Deecamp的面试，以及源于对自动驾驶的兴趣，笔者着手开始reinforcement learning的学习。写下笔记记录自己的学习过程。

首先，什么是强化学习？笔者的理解是，强化学习是一种半监督学习方式，系统与环境产生交互，做出一系列的行为，环境状态系统状态因此发生改变，环境最终给予系统一个反馈信号，也就是一个reward或punish。系统通过反馈信号来调整自己的行为，使其更加适应这个环境（接受更多的reward）。

强化学习的一个特点之一是，它每一次产生的行为不一定是当前最优的，但若算法收敛的情况下，将是一个全局最优解。每一步只选择当前最优，这属于贪心算法，例如梯度下降算法就属于这种类型，它很容易陷入局部最优解而难以跳出。人生又何尝不是如此呢？许多人往往重视眼前的利益而忽视了长远的发展，这从全局来看，自然对一个人的发展是不良的。

下面归结一下强化学习的特点：

没有监督数据，只有奖励信号；
奖励信号不一定是实时的，而很可能是延后的，有时甚至延后很多。比如下围棋，系统在游戏结束时候收到最终奖励/惩罚信号，当然，中间过程也可能会收到许多反馈信号。
时间（序列）是一个很重要的因素。
当前的行为影响后续接收到的数据。

强化学习主要基于这样的”奖励假设”：所有问题解决的目标都可以被描述成最大化累积奖励。

不过这个假设是否足够合理，或者是否足够优秀，笔者是存疑的。这儿涉及到现实社会中关于AI伦理问题的讨论。举一个比较接地气的例子，在自动驾驶系统的开发中，一个问题是，当汽车在大桥上行驶，前面出现了一批行人，车祸即将发生，而汽车此时无法立即停车，那么系统应该是选择保护驾驶员，还是前方的行人呢？这取决于强化学习中价值函数的选择。

未完待续

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
我的强化学习笔记

为了准备Deecamp的面试，以及源于对自动驾驶的兴趣，笔者着手开始reinforcement learning的学习。写下笔记记录自己的学习过程。首先，什么是强化学习？笔者的理解是，强化学习是一种半监督学习方式，系统与环境产生交互，做出一系列的行为，环境状态系统状态因此发生改变，环境最终给予系统一个反馈信号，也就是一个reward或punish。系统通过反馈信号来调整自己的行为，使其更加...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。