强化学习笔记（1）：导论

最新推荐文章于 2023-03-04 19:24:31 发布

模仿学习小菜鸡

最新推荐文章于 2023-03-04 19:24:31 发布

阅读量193

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/DJ_9425/article/details/103533573

版权

1 篇文章 0 订阅

订阅专栏

导论

学习的本质：人类通过与环境进行交互学习。运动感知使我们与外部环境直接联结，告诉我们各类行为的后果。(三思而后行？)

定义：基于当前环境，agent选取可获得最大化数值收益信号的动作。该收益不仅指当前即时收益，也指长远的收益。agent不一定是完整的有机体或机器人，也可以指某个动作系统的组成部分。

基本特征：试错和延迟收益

强化学习即代表一类问题，同时也是这类问题的解决方法，还是此类问题及其解法的研究领域，学会区分这些概念。

强化学习问题：序贯决策问题。需要连续不断做出决策，才能实现最终目标。

强化学习方法：基于带有回报的交互数据，选取当前最优动作。

在这里插入图片描述

强化学习与监督学习：监督学习数据集带有标签，而强化学习当前动作收益在进行动作前未知。

强化学习与无监督学习：无监督学习基于不带标签数据集对样本进行分组(寻找数据结构)，而强化学习基于收益选取最优动作。

问题：试探与开发之间的权衡。选取过去产生最大收益的动作，还是开发更好的动作？可以看一下Deepak Pathak的这篇论文Curiosity-driven Exploration by Self-supervised Prediction

除了agent和环境，还包括四个核心要素：策略、收益信号、价值函数及环境建模。

策略：agent在特定时间的行为方式
收益信号：即时收益
价值函数：远期收益
环境建模：预测agent采取某一动作后环境状态和收益

主线一：最优控制–>动态规划
主线二：试错学习
主线三：时序差分(与神经元活动的相似性)
整合：Q_Learning–>…

关注