本文中的部分图片和内容引用于写Bug那些事该大佬的博客,更为细致的讲解请查看该博客,链接如下:
一、对专业术语和基本概念的理解
1.1state action 和 agent
state可以理解成状态(环境状态)。在YouTube中刷视频时,我们可以认为state是用户在面对视频时,用户的信息(如用户的观看历史和用户的年龄性别等)和当前视频的信息(如视频所属类别和视频的创作者等)等。state也可以简单理解为当前的画面(当然这并不准确但是方便理解)。用户面对该视频所做的动作就是action。假设用户会做4个动作:点赞、点击不喜欢、评论和分享,那么用户就作为该例子的agent去做action。
1.2 policy-策略
policy的意思就是根据观测到的状态来进行决策,以控制agent的动作。在数学上policy函数π是这样定义的,这个policy函数π是个概率密度函数:
表示给定状态s做出动作a的概率密度。
比如在当前状态下,用户点赞的概率为0.6,评论的概率为0.2,收藏的概率为0.1,点击不喜欢的概率为0.1。4种动作都可能发生但是点赞的可能性最大。
动作具有随机性,每个动作的概率大小不一。agent有可能做其所存在的任何一种动作。
1.3 reward
agent做出一个动作,就会获得一个奖励。如若用户对视频点赞则reward = 500、用户对视频评论则reward = 200、用户对视频收藏则reward = 1000、用户对视频点击不喜欢则reward = -1000.
1.4 状态转移
假设用户在面对1号视频时为状态s,且用户采取了动作a,那么用户下滑得到的下一个视频就会发生变化,即状态变了。状态转移函数通常用p表示(论文中为T)
表示在当前状态s下进行动作a,下一个状态为s'的概率。
状态转移具有随机性,用户在 a 1号视频后得到的下一条视频有多种情况。通过状态转移函数得到概率,然后通过随机抽样得到下一个状态s‘。
1.5 Return
Return翻译为回报,又叫cumulative future reward(未来的累计奖励),我们把t时刻的return叫做Ut,其等于这一时刻的reward和其之后所有时刻的reward之和。但由于未来的reward重要性会越来越低,所以引入折扣率𝛾,这个值要介于0和1之间。(𝛾可以自己调整)
由于某时刻的reward取决于当时的状态所引发的动作以及下一状态,他们具有随机性,因此Ut也具有随机性。
1.6 action-value function 动作-价值函数 Qπ
动作-价值函数 Qπ是对Ut求期望得来的。表示在状态st下选择动作at获得的未来累计奖励的期望值。数值越大则说明agent在状态st下选择动作at越好。Qπ主要和policy函数π、状态s和动作a有关。
对π关于Qπ求最大化,得到函数Q* ,被称为Optimal action-value function(最优动作价值函数)。Q*可以得到st下为得到最高的未来累计奖励所应选择的动作at。
1.7 state-value function 状态-价值函数
状态价值函数Vπ是动作价值函数Qπ的期望(论文中为VπM)。表示在状态st下执行策略π得到的未来累积奖励的期望值。Vπ和policy函数π和状态s有关而和动作a无关。Vπ越大则说明当前状况越好。