深度强化学习
文章平均质量分 81
深入研究深度强化学习
布の哥
天阶夜色凉如水,卧看牵牛织女星
展开
-
深度强化学习——蒙特卡洛算法(6)
本章的内容作为补充插曲,讲解了一些蒙特卡洛近似的实例,大家可以选看,不过还是建议把最后一个使用蒙特卡洛近似求期望稍微看一下原创 2023-04-24 13:01:47 · 1093 阅读 · 0 评论 -
深度强化学习——AlphaGo实例讲解(5)
本文通过分析AlphaGo实例,看看深度强化学习是怎么样用来玩围棋游戏的原创 2023-04-23 22:36:36 · 2015 阅读 · 0 评论 -
深度强化学习——actor-critic算法(4)
θ,w)来近似,θ是策略网络的参数,w是价值网络的参数,训练的时候要更新两个神经网络的参数θ和w,但是更新θ和w的目标是不同的,更新策略网络Π的参数θ,是为了让V函数的值增加,V函数是对策略Π和状态s的评价,如果固定s,V越大则说明策略Π越好,所以很显然我们需要更新参数θ使得V的平均值(期望)增加,学习策略网络Π的时候,监督是由价值网络Q提供的,怎么理解呢?裁判是靠什么改进自己的呢?价值网络q的作用是辅助训练策略网络Π,裁判打的分数就相当于监督学习中的标签,运动员就是靠裁判打的分数来改进自己的动作。原创 2023-04-18 21:52:49 · 2019 阅读 · 0 评论 -
深度强化学习——第一次知识小结(3.5)
我们不知道QΠ,所以没法算qt,那么。原创 2023-04-18 14:55:52 · 370 阅读 · 0 评论 -
深度强化学习——策略学习(3)
我们让agent玩游戏,每一步都会观测到一个不同的状态s,这个s就相当于是从状态的概率分布当中随机抽样出来的,观测到状态s,把V(s,θ),关于θ求导,得到一个梯度,然后用梯度上升来更新θ,这里的β是学习率,其实这就相当于是随机梯度上升,我们算的不是梯度,真正的梯度是目标函数J(θ),关于θ的导数,这里我们算的是v关于θ的导θ数,其实就是一个随机梯度,随机性来自于S,为什么要用梯度上升呢?,蒙特卡洛就是抽一个或者几个随机样本,用随机样本来近似期望,更新模型参数θ的时候,用g()来作为近似的梯度就可以了。原创 2023-04-17 13:26:35 · 777 阅读 · 0 评论 -
深度强化学习——价值学习(2)
300分钟是真实的观测,新的估计900分钟就是TD target,虽然这900分钟也是估计,但是他包含了一部分的真实观测,当我越接近Atlanta,TD target就越准确,越接近真实值,这样我到了DC,我算出TD target y=900,我就可以更新模型参数了,我假装y=900就是真实观测,把y作为target,损失函数就是1/2(1000-900)^2,这里最初的估计Q(w)和TD target y的差称为TD error,这里的TD error=q-y=1000-900=100。原创 2023-04-16 20:57:31 · 242 阅读 · 0 评论 -
深度强化学习——基本概念(1)
agent的目标就是让未来得到的奖励总和越大越好,为此我们使用Ut来表示未来得到的奖励总和,如果知道Ut的话,我就知道这局游戏是快要赢了还是快要输了?》逗你玩的,Ut是个随机变量,在t时刻你并不知道Ut是什么,那么我应该如何评估当前的形势呢?》我们可以对Ut求期望,把里面的随机性都使用积分给积掉,得到的就是个实数real num,记作QΠ(st,at),这个期望是怎么求的呢?原创 2023-04-15 12:53:48 · 1302 阅读 · 4 评论