强化学习
文章平均质量分 77
哈哈哈捧场王
这个作者很懒,什么都没留下…
展开
-
REFINFORCE算法实现
#!/usr/bin/env python# -*- coding:utf-8 -*-# author:tiger# datetime:2021/9/18 5:11 下午import gymimport numpy as npimport torchimport matplotlib.pyplot as pltfrom torch import nnfrom torch.distributions import Categoricalfrom torch import finfo.原创 2021-09-22 16:06:00 · 200 阅读 · 0 评论 -
强化学习实践之交叉熵方法
核心:丢弃不好的episode步骤:使用当前的模型和环境运行N个episode计算每个episode的总奖励并确定一个奖励边界。通常,使用所有奖励的一些百分位数,例如:50%和70%丢弃所有包含边界以下奖励的episode用观察作为输入,已发布的动作作为期望输出训练剩余的“精华”episode不断重复上述步骤局限性:对于训练,episode必须是有限的,最好是简短的episode的总奖励应具有足够的可变性,足以将好的episode与坏episode分开没有关于Agent是成功还.原创 2021-09-13 09:19:21 · 373 阅读 · 0 评论 -
策略梯度中的baseline
策略梯度中的BaselinePolicy Gradient with BaselinePolicy Gradient策略梯度是关于策略网络的参数求的,策略网络π(a∣s;θ)\pi (a|s;\theta)π(a∣s;θ)的参数是θ\thetaθ,我们使用策略网络来控制Agent做运动。状态价值函数Vπ(s)V_{\pi}(s)Vπ(s)是动作价值函数的期望,期望是关于动作A求的,动作A的概率密度函数是π\piπ,可以将期望等价写为连加的形式。这里期望中包含策略网络的参数θ\thetaθ,所以得到原创 2021-09-04 22:20:29 · 1312 阅读 · 2 评论 -
时间差分算法
时间差分算法Sarsa算法Derive TD Target回顾Discounted Return,不难推出这个时刻的回报等于这个时刻的奖励加上下个时刻的回报乘以γ\gammaγ我们使用Ut=Rt+γ⋅Ut+1U_t = R_t + \gamma \cdot U_{t+1}Ut=Rt+γ⋅Ut+1来推导TD target,通常认为奖励RtR_tRt依赖于t时刻的动作AtA_tAt和状态StS_tSt,以及t+1时刻的状态St+1S_{t+1}St+1,根据定义状态价值函数Qπ(原创 2021-09-04 22:07:14 · 969 阅读 · 3 评论 -
DQN高级技巧
DQN高级技巧DQN和TD Learning回顾DQN之前我们学过Q∗(s,a)Q^*(s,a)Q∗(s,a)函数,它叫做动作价值函数,它依赖于当前的状态s和动作a,它基于当前状态s给所有的动作a打分,分数反映了动作a的好坏,Agent应该执行分数最高的动作,DQN的意思是使用神经网络来近似Q∗Q^*Q∗函数,神经网络的参数记作:w。DQN的意思是用神经网络来近似Q∗Q^*Q∗函数,训练好DQN之后,使用DQN来控制Agent。DQN的输入是状态s,将s输入DQN。如下图将超级玛丽画面放入DQN中,原创 2021-08-30 20:39:14 · 2855 阅读 · 1 评论 -
多智能体强化学习
Multi-Agent Reinforcement LearningConcepts and ChallengesSetting多智能体强化学习通常有四种设定Fully cooperative完全合作关系,这种设定里面,Agents的利益一致,获得的奖励相同,有共同的目标。Fully competitive完全竞争关系,一方的收益是另一方的损失。典型的代表就是0和博弈,双方获得的奖励的总和为0.Mixed Cooperative & comepetitive既有竞原创 2021-08-12 16:07:29 · 1362 阅读 · 1 评论 -
蒙特卡洛近似的一些例子
Monte Carlo AlgorithmsCalculating Pi假设我们有一个随机数生成器,它可以随机生成[-1,1]之间的实数,我们每次生成两个随机数,一个作为x,一个作为y,这样我们就有了一个点,所有的点都会落在蓝色的正方形里面,由于x和y都是在[-1,1]之间均匀分布,所以正方形中所有的点都有相同的概率密度,正方形中包含一个绿色的原,半径为1,圆心是原点。刚刚随机生成的点可能会落在圆里面,可能会落在圆外面。这里我们不难得到落在圆中的概率为π4\frac{\pi}{4}4π。假设原创 2021-08-07 16:51:30 · 831 阅读 · 0 评论 -
AlphaGo简单解析
AlphaGoGo Game围棋的棋盘是19*19的,一共有361个位置可以放棋子。State:两方交替放棋子,这样棋盘的状态就是黑白棋子以及空的位置的排列。可以用一个19×19×219\times 19 \times 219×19×2的tensor就可以来表示了。这里假设黑棋位置的排列,可以用一个19×1919 \times 1919×19的矩阵来表示,对应位置有黑棋就表示为1,否则就表示为0。同样,白棋也可以用同样的方法来表示。但是实际上AlphaGo 使用一个19∗19∗4819*19原创 2021-08-07 16:48:38 · 2300 阅读 · 1 评论 -
强化学习基础
Reinforcement Learning1、概率论知识Random VariableRandom variable:随机变量是一个未知的量,它的值取决于一个随机事件的结果。使用大写的X表示其值。使用小写字母x来表示随机变量的观测值,小x只是一个数而已没有随机性。Probability Density Function(PDF, 概率密度函数)概率密度函数的物理意义是,随机变量在某个确定的取值点附近的可能性比如:高斯分布是一个连续的分布PDF:p(x)=12πσ2exp(−(x−原创 2021-08-07 16:36:16 · 232 阅读 · 0 评论