David sliver第一讲之强化学习简介

最新推荐文章于 2022-11-28 19:35:59 发布

DevCh

最新推荐文章于 2022-11-28 19:35:59 发布

阅读量661

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/weishenjiayou/article/details/80801003

版权

强化学习是一个多面交叉的学科，运用的技术和理论包括传统机器学习、最优理论、激励系统、有限理论、运筹学等。强化学习是机器学习的一个分支，不同于监督学习和非监督学习。相比有以下特征：1.没有标签，只存在激励信号，反馈激励分数；2.反馈具有延迟性，不是即时的；3.输入数据具有动态性（agent->action->env->obs->agent）。反馈具有延迟性，可以这样理解，在实际算法实现中反馈计算分为：一种是每回合的反馈延计算，一种每轮动作的反馈计算，但是两种情况都是在动作结束或完成既定目标后才进行学习，即调参过程。

强化学习的应用领域在个方面都有涉及，包括机器控制、智能系统控制、游戏、机器人智能等方面。

Reward是一种标量的反馈信号，能够表示agent当前action是否足够好，所以可以通过最大化总激励的期望来调整agent的策略。Reward有好有坏，是会越来越好的过程。强化学习是一种连续决策，目的是最大化未来激励和，具有的反馈延时性将即时奖励转换成长期奖励。

Environment是agent所处的环境，用于接收action并返回在action条件下的环境state和反馈reward。Agent是强化学习的core，主要用来选择action，通过接收当前环境的state和reward进行调参。

State分为environment state和agent state两种。由于具有markov性质，只需要知道state即可计算未来信息。State在fully observation environment和partially observation environment两种情况下，state分别有不同的状态，分别为MDP和POMDP。在MDP中，有agent state=environment state，在POMDP中，两者不相等，需要通过函数、贝叶斯分布、线性网络等来构建。

强化学习的agent主要组成部分为policy、value function、model三大部分。Policy是用来选择action或者给出action的概率，value function是用来计算future reward来表示当前action的goodness和badness。Model是一个模拟环境，用来给出下一个action、reward、state。

DevCh

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
David sliver第一讲之强化学习简介

强化学习是一个多面交叉的学科，运用的技术和理论包括传统机器学习、最优理论、激励系统、有限理论、运筹学等。强化学习是机器学习的一个分支，不同于监督学习和非监督学习。相比有以下特征：1.没有标签，只存在激励信号，反馈激励分数；2.反馈具有延迟性，不是即时的；3.输入数据具有动态性（agent-&gt;action-&gt;env-&gt;obs-&gt;agent）。反馈具有延迟性，可...
复制链接

扫一扫