DRL
胖虎的编程日记
这个作者很懒,什么都没留下…
展开
-
博弈论中的trunk指的是什么?
trunk的定义:1、对于一个给定的博弈和子博弈集,所有不在前述定义的子博弈集的节点的集合即为一个trunk。2、从根节点出发的一系列状态,满足:每个节点的父节点都在这个trunk中。相比之下,子博弈:每个根节点不在trunk中,但是父节点在trunk中的节点。整个博弈树可以被拆分成子博弈+trunk!...原创 2020-09-04 09:46:37 · 145 阅读 · 0 评论 -
【RL China 2020笔记】博弈论基础
非完美信息博弈一些历史动作并不是对所有玩家已知(invisible)例如图中的节点b和c,这两个节点对于玩家2来说是不可区分的。为了描述对于某个玩家来说一系列不可区分的状态,把这些一系列不可区分的状态定义为信息集。...原创 2020-08-11 10:53:00 · 582 阅读 · 0 评论 -
强化学习 重要定义和公式 一览
状态价值函数 vπ(s)v_{\pi}(s)vπ(s)定义为:从状态s开始,采用策略π\piπ 的期望回报:vπ(s)=Eπ[Gt∣St=s]v_\pi(s) = E_\pi[G_t|S_t = s]vπ(s)=Eπ[Gt∣St=s]其中 GtG_tGt 定义为未来奖励之和:Gt=Rt+1+γRt+2+...=∑τ=0∞γτRt+1+τ\begin{alignedat}{2}G_t &= R_{t+1} + \gamma R_{t+2} + ...\\&=\s原创 2020-08-10 17:32:49 · 816 阅读 · 0 评论 -
博弈论基础 (用于多智能体)
感知智能 →决策智能 → 群体智能决策诺贝尔经济学奖在历史上18次授予博弈相关领域。博弈的构成元素:玩家、策略、效用(payoff, utility)什么是纯策略和混合策略?纯策略:玩家以概率为1确定会采取某个动作的策略;混合策略:对于一个动作集合,玩家以一定概率采取动作集合中的任何一个动作非完美、非完全、非完备有什么区别?...原创 2020-08-10 12:11:31 · 655 阅读 · 0 评论 -
OpenAI gym的常见命令
取出并生成指定的环境:env = gym.make(特定环境)初始化环境:env.reset()在当前状态执行指定的动作:env.step(动作)显示(渲染)当前环境:env.render()关闭当前环境:env.close()原创 2020-08-08 16:54:11 · 474 阅读 · 0 评论 -
win10 下如何安装完整的gym库?
使用pip install 安装的gym库是最小安装版本,其中并不报考一些子库比如gym[box2d]等,下面介绍如何安装完整版的gym库。1、下载swighttps://sourceforge.net/projects/swig/files/swigwin/2、解压缩将其解压到C:\Program Files\swigwin-4.0.1下。(需自行创建)3、添加环境变量将第二步所示的目录添加到环境变量中。此电脑 →属性→高级系统设置→环境变量→系统变量中的“path”,添加新路径→保原创 2020-08-08 16:18:35 · 3105 阅读 · 0 评论