多智能体强化学习入门(五)——QMIX算法分析

本文内容见 https://zhuanlan.zhihu.com/p/55003734

2019-01-16 15:37:48

阅读数 26

评论数 0

【强化学习】DRQN详解分析

本节内容见https://zhuanlan.zhihu.com/p/54898904

2019-01-15 11:47:53

阅读数 35

评论数 0

多智能体强化学习入门(三)——矩阵博弈中的分布式学习算法

本节内容在https://zhuanlan.zhihu.com/p/53622102

2019-01-02 21:45:13

阅读数 31

评论数 0

多智能体强化学习入门(四)——MADDPG算法

本节内容在https://zhuanlan.zhihu.com/p/53811876。

2019-01-02 09:50:50

阅读数 163

评论数 0

多智能体强化学习入门(二)——基础算法(MiniMax-Q,NashQ,FFQ,WoLF-PHC)

本节内容在https://zhuanlan.zhihu.com/p/53563792。

2018-12-29 09:44:56

阅读数 102

评论数 0

多智能体强化学习入门(一)——基础知识与博弈

本次开一个专栏,用来分享关于多智能体强化学习方面的入门内容。强化学习在单体稳定环境中取得了非常好的效果,DeepMind,OpenAI目前都在把眼光投向了多智能体强化学习,尤其是分布式的算法。 本节内容分享在https://zhuanlan.zhihu.com/p/53474965。 ...

2018-12-29 09:44:12

阅读数 83

评论数 0

【强化学习】确定性策略强化学习-DPG&DDPG算法推导及分析

一、DGP推导 本篇介绍确定性策略梯度算法,该算法主要用于off-policy(on-policy也能用)。在DQN等值函数估计算法中,最终策略的形式是需要对动作状态值函数取极大a=argmaxa′Q(s,a′)a={\rm argmax}_{a&#...

2018-12-07 17:32:50

阅读数 244

评论数 0

【强化学习】中Q-learning,DQN等off-policy算法不需要重要性采样的原因

由于Q-learning采用的是off-policy,如下图所示 但是为什么不需要重要性采样。其实从上图算法中可以看到,动作状态值函数是采用1-step更新的,每一步更新的动作状态值函数的R都是执行本次A得到的,而我们更新的动作状态值函数就是本次执行的动作A的Q(S,A)Q(S,A)Q(S,A)...

2018-12-07 17:21:57

阅读数 112

评论数 0

【强化学习】值函数强化学习-DQN、DDQN和Dueling DQN算法公式推导分析

一、值函数估计方法引入 在值函数估计方法中,我们希望拟合一个价值模型用来估计每个状态动作对的累积回报。其代价函数可以写为 L=12∑a∑s(Q(s,a)−Q(s,a;θ))2 L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2 L=21​a∑...

2018-12-05 10:41:35

阅读数 145

评论数 0

【强化学习】随机策略梯度算法(stochastic-policy-gradient)

策略搜索方法相对于值函数法有如下优缺点 优点: 直接策略搜索方法是对策略π\piπ进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。 利用值函数方法求解最优策略时,策略改进需要求解argmaxaQθ(s,a)argmax_a Q_\theta(s,a)ar...

2018-12-04 17:40:43

阅读数 260

评论数 0

共轭梯度法详细推导分析

共轭梯度法是一种经典的优化算法。算法求解速度较快,虽然比梯度下降法复杂,但是比二阶方法简单。 一、引入 1. 优化模型建立 假定待优化的问题如下所示: min⁡xf(x)=12xTAx−bTx \min_{x} f(x)=\frac{1}{2}x^TAx - b^Tx xmin​f(x)=21​x...

2018-11-29 21:10:57

阅读数 132

评论数 0

XGBoost论文原理公式推导

目标函数 Obj(Θ)=L(Θ)+Ω(Θ) Obj(\Theta) = L(\Theta) + \Omega(\Theta) Obj(Θ)=L(Θ)+Ω(Θ) 其中L(Θ)L(\Theta)L(Θ)为损失(误差)函数,Ω(Θ)\Omega(\Theta)Ω(Θ)为正则化项。 模型 Obj(Θ)=∑...

2018-11-09 11:18:02

阅读数 34

评论数 0

算法面试中的逻辑题

1. 射影定理 在直角三角形中,斜边上的高是两条直角边在斜边射影的比例中项,每一条直角边又是这条直角边在斜边上的射影和斜边的比例中项。 BD2=AD∗DCAB2=AD∗ACBC2=CD∗AC BD^2=AD*DC\\ AB^2=AD*AC\\ BC^2=CD*AC BD2=AD∗DCAB2=AD...

2018-11-09 11:11:24

阅读数 48

评论数 0

算法题4

1. 课程表 II 现在你总共有 n 门课需要选,记为 0 到 n-1。 在选修某些课程之前需要一些先修课程。 例如,想要学习课程 0 ,你需要先完成课程 1 ,我们用一个匹配来表示他们: [0,1] 给定课程总量以及它们的先决条件,返回你为了学完所有课程所安排的学习顺序。 可能会有多个正确的顺序...

2018-11-09 11:02:52

阅读数 44

评论数 0

算法题3

1. 三角形最小路径和 给定一个三角形,找出自顶向下的最小路径和。每一步只能移动到下一行中相邻的结点上。 例如,给定三角形: [ [2], [3,4], [6,5,7], [4,1,8,3] ] 自顶向下的最小路径和为 11(即,2 + 3 + 5 + 1 = 11)。 分析:自下而上动态规...

2018-11-09 11:01:35

阅读数 76

评论数 0

算法题2

1. 变态跳台阶 一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。 分析: f(n)=f(1)+f(2)+...+f(n−1)+1 f(n)=f(1)+f(2)+...+f(n-1)+1 f(n)=f(1)+f(2)+...+f(n−1...

2018-11-09 11:00:20

阅读数 56

评论数 0

队列与栈面试题C++

概念 1.图的深度优先遍历(DFS) 可以用栈实现,从根结点开始沿左孩子到最深的节点压入栈中,然后依次弹出,若栈顶节点还有没有访问的孩子,则没访问过得孩子入栈直到最深的节点,然后再弹出。元素入栈顺序则为深度优先遍历顺序。 2.图的宽度优先遍历(BFS) 可以用队列实现,将根结点放入队列,每...

2018-11-09 10:57:30

阅读数 63

评论数 0

二分搜索面试题C++

二分搜索的常见考察点 对于边界条件的考察以及代码实现的能力,如果边界条件处理不当,可能会出现死循环或者漏掉某个数的情况。仔细设计中间划分点的逻辑判断以及循环的终止条件,防止出现循环永远不能终止的情况。 在有序循环数组中进行二分搜索 循环数组是指,1,2,3,4,5的任意前部分放到数组后,例如...

2018-11-09 10:57:13

阅读数 55

评论数 0

链表面试题C++

注意头结点的处理,如果倒叙记得将新的尾节点指向空。 示例一 给定一个整数num,如何在节点值有序的链表中插入一个节点值为num的节点,并且保证这个单链表依然有序。 #include<iostream&amp...

2018-11-09 10:57:11

阅读数 50

评论数 0

字符串面试题C++

重要概念 1.回文 2.子串(连续) 3.子序列(不连续) 4.前缀:指除了最后一个字符以外,一个字符串的全部头部组合。 5.后缀:指除了第一个字符以外,一个字符串的全部尾部组合。 - - - - - 例:”ABCDAB”的前缀为[A, AB, ABC, ABCD, ABCDA],后缀...

2018-11-09 10:57:09

阅读数 93

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭