自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 强化学习笔记(三)

动态规划一、策略评估根据上节内容,我们可以得到对于任意的s∈Ss \in Ss∈S有:vπ(s)=Eπ[Gt∣St=s]=Eπ[Rt+1+γGt+1∣St=s]=Eπ[Rt+1+γvπ(St+1)∣St=s]=Eπ[Rt+1+γvπ(s′)∣St=s]=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γvπ(s′)]\begin{aligned}v_\pi(s) & =E_\pi[G_t|S_t=s]\\ & =E_\pi[R_{t+1}+\gamma G_{t+1}|S_

2021-02-05 10:22:37 112

原创 强化学习笔记(二)

一、有限马尔科夫决策(MDP)过程MDP就是一种通过交互式学习来实现目标的理论框架。进行学习及实施决策的机器被称为智能体(agent),智能体之外的所有与其相互作用的事物被称为环境(environment)。智能体选择动作,环境对动作产生响应,并向智能体呈现新的状态,并产生一个收益。(图片来源于网络)有限MDP的几个要素:状态SSS,动作AAA,回报RRR由于MDP中的下一状态及回报仅由当前状态和选择动作决定,故我们用下一状态与回报的条件概率来描述MDP的动态特性:p(s′,r∣s,a)=Pr(

2021-01-17 17:09:23 227 1

原创 强化学习笔记(一)

强化学习笔记(一)一、多臂赌博机问题多臂赌博机问题简述:设有 一台多控制杆的赌博机,每一个控制杆都有不同的预期回报值(你从给定机器所得到的预期净收入)。但你不知道每个控制杆带来的预期回报值。你可以在玩的过程中随时更换控制杆,也可以在任意相同控制杆上玩任意次数。那么最优的策略是什么?二、问题理解这个问题给人的第一感觉就是一个统计方面的问题,就是通过自己的操作获得数据,然后去估计每个杆的回报期望。然后就是一直选择期望高的控制杆就好了,我们要做的就是如何又快又准确的去估计每根杆上的回报期望。三、基本术

2021-01-10 23:16:37 201 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除