强化学习笔记(1):导论

导论

1. 引言

学习的本质:人类通过与环境进行交互学习。运动感知使我们与外部环境直接联结,告诉我们各类行为的后果。(三思而后行?)

2. 强化学习

定义:基于当前环境,agent选取可获得最大化数值收益信号的动作。该收益不仅指当前即时收益,也指长远的收益。agent不一定是完整的有机体或机器人,也可以指某个动作系统的组成部分。

基本特征:试错和延迟收益

强化学习即代表一类问题,同时也是这类问题的解决方法,还是此类问题及其解法的研究领域,学会区分这些概念。

强化学习问题:序贯决策问题。需要连续不断做出决策,才能实现最终目标。

强化学习方法:基于带有回报的交互数据,选取当前最优动作。

在这里插入图片描述

强化学习与监督学习:监督学习数据集带有标签,而强化学习当前动作收益在进行动作前未知。

强化学习与无监督学习:无监督学习基于不带标签数据集对样本进行分组(寻找数据结构),而强化学习基于收益选取最优动作。

问题:试探与开发之间的权衡。选取过去产生最大收益的动作,还是开发更好的动作?可以看一下Deepak Pathak的这篇论文Curiosity-driven Exploration by Self-supervised Prediction

3. 强化学习要素

除了agent和环境,还包括四个核心要素:策略、收益信号、价值函数及环境建模。

策略:agent在特定时间的行为方式
收益信号:即时收益
价值函数:远期收益
环境建模:预测agent采取某一动作后环境状态和收益

4. 历史

主线一:最优控制–>动态规划
主线二:试错学习
主线三:时序差分(与神经元活动的相似性)
整合:Q_Learning–>…

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值