强化学习笔记

本文中的部分图片和内容引用于写Bug那些事该大佬的博客,更为细致的讲解请查看该博客,链接如下:

强化学习入门这一篇就够了!!!万字长文-CSDN博客

一、对专业术语和基本概念的理解

1.1state action 和 agent

state可以理解成状态(环境状态)。在YouTube中刷视频时,我们可以认为state是用户在面对视频时,用户的信息(如用户的观看历史和用户的年龄性别等)和当前视频的信息(如视频所属类别和视频的创作者等)等。state也可以简单理解为当前的画面(当然这并不准确但是方便理解)。用户面对该视频所做的动作就是action。假设用户会做4个动作:点赞、点击不喜欢、评论和分享,那么用户就作为该例子的agent去做action。

1.2 policy-策略

policy的意思就是根据观测到的状态来进行决策,以控制agent的动作。在数学上policy函数π是这样定义的,这个policy函数π是个概率密度函数

表示给定状态s做出动作a的概率密度

比如在当前状态下,用户点赞的概率为0.6,评论的概率为0.2,收藏的概率为0.1,点击不喜欢的概率为0.1。4种动作都可能发生但是点赞的可能性最大。

动作具有随机性,每个动作的概率大小不一。agent有可能做其所存在的任何一种动作。

1.3 reward

agent做出一个动作,就会获得一个奖励。如若用户对视频点赞则reward = 500、用户对视频评论则reward = 200、用户对视频收藏则reward = 1000、用户对视频点击不喜欢则reward = -1000.

1.4 状态转移

假设用户在面对1号视频时为状态s,且用户采取了动作a,那么用户下滑得到的下一个视频就会发生变化,即状态变了。状态转移函数通常用p表示(论文中为T)

表示在当前状态s下进行动作a,下一个状态为s'的概率。

状态转移具有随机性,用户在 a 1号视频后得到的下一条视频有多种情况。通过状态转移函数得到概率,然后通过随机抽样得到下一个状态s‘。

1.5 Return

Return翻译为回报,又叫cumulative future reward(未来的累计奖励),我们把t时刻的return叫做Ut,其等于这一时刻的reward和其之后所有时刻的reward之和。但由于未来的reward重要性会越来越低,所以引入折扣率𝛾,这个值要介于0和1之间。(𝛾可以自己调整)

由于某时刻的reward取决于当时的状态所引发的动作以及下一状态,他们具有随机性,因此Ut也具有随机性。

1.6 action-value function 动作-价值函数 Qπ

动作-价值函数 Qπ是对Ut求期望得来的。表示在状态st下选择动作at获得的未来累计奖励的期望值。数值越大则说明agent在状态st下选择动作at越好。Qπ主要和policy函数π、状态s和动作a有关。

对π关于Qπ求最大化,得到函数Q* ,被称为Optimal action-value function(最优动作价值函数)。Q*可以得到st下为得到最高的未来累计奖励所应选择的动作at。

1.7 state-value function 状态-价值函数 

状态价值函数Vπ是动作价值函数Qπ的期望(论文中为VπM)。表示在状态st下执行策略π得到的未来累积奖励的期望值。Vπ和policy函数π和状态s有关而和动作a无关。Vπ越大则说明当前状况越好。

二、对论文中各个函数公式的汇总

2.1论文4.1中的函数公式

2.2论文4.2中的函数公式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值