David sliver第一讲之强化学习简介

        强化学习是一个多面交叉的学科,运用的技术和理论包括传统机器学习、最优理论、激励系统、有限理论、运筹学等。强化学习是机器学习的一个分支,不同于监督学习和非监督学习。相比有以下特征:1.没有标签,只存在激励信号,反馈激励分数;2.反馈具有延迟性,不是即时的;3.输入数据具有动态性(agent->action->env->obs->agent)。反馈具有延迟性,可以这样理解,在实际算法实现中反馈计算分为:一种是每回合的反馈延计算,一种每轮动作的反馈计算,但是两种情况都是在动作结束或完成既定目标后才进行学习,即调参过程。

        强化学习的应用领域在个方面都有涉及,包括机器控制、智能系统控制、游戏、机器人智能等方面。

        Reward是一种标量的反馈信号,能够表示agent当前action是否足够好,所以可以通过最大化总激励的期望来调整agent的策略。Reward有好有坏,是会越来越好的过程。强化学习是一种连续决策,目的是最大化未来激励和,具有的反馈延时性将即时奖励转换成长期奖励。

        Environment是agent所处的环境,用于接收action并返回在action条件下的环境state和反馈reward。Agent是强化学习的core,主要用来选择action,通过接收当前环境的state和reward进行调参。

        State分为environment state和agent state两种。由于具有markov性质,只需要知道state即可计算未来信息。State在fully observation environment和partially observation environment两种情况下,state分别有不同的状态,分别为MDP和POMDP。在MDP中,有agent state=environment state,在POMDP中,两者不相等,需要通过函数、贝叶斯分布、线性网络等来构建。

        强化学习的agent主要组成部分为policy、value function、model三大部分。Policy是用来选择action或者给出action的概率,value function是用来计算future reward来表示当前action的goodness和badness。Model是一个模拟环境,用来给出下一个action、reward、state。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值