贰锤
码龄8年
关注
提问 私信
  • 博客:1,004,682
    社区:6
    1,004,688
    总访问量
  • 110
    原创
  • 1,728,077
    排名
  • 296
    粉丝
  • 2
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:新加坡
  • 加入CSDN时间: 2017-03-14
博客简介:

开贰锤

查看详细资料
个人成就
  • 获得452次点赞
  • 内容获得110次评论
  • 获得1,794次收藏
  • 代码片获得571次分享
创作历程
  • 1篇
    2020年
  • 6篇
    2019年
  • 41篇
    2018年
  • 68篇
    2017年
成就勋章
TA的专栏
  • 多智能体强化学习柠檬糖
    5篇
  • 强化学习薄荷糖
    15篇
  • 机器学习
    28篇
  • c++小问题
    4篇
  • python学习笔记
    28篇
  • C++
    11篇
  • git教程
    1篇
  • 小问题
  • cmake-教程
    1篇
  • 强化学习
    22篇
  • 数据结构
    16篇
  • Tensorflow
    5篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

多智能体强化学习入门(八)——图卷积强化学习DGN

GRAPH CONVOLUTIONAL REINFORCEMENT LEARNING文章在https://zhuanlan.zhihu.com/p/143816617
原创
发布博客 2020.05.26 ·
1974 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

多智能体强化学习入门(七)——AC for CDec-POMDP 大规模规划学习算法

Thien, Nguyen & Kumar, Akshat & Lau, Hoong. (2017). Policy Gradient With Value Function Approximation For Collective Multiagent Planning.内容详见:https://zhuanlan.zhihu.com/p/66571753
原创
发布博客 2019.05.22 ·
1655 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

多智能体强化学习入门(六)——MFMARL算法(Mean Field Multi-Agent RL)

本节内容见https://zhuanlan.zhihu.com/p/56049023
原创
发布博客 2019.01.30 ·
5211 阅读 ·
0 点赞 ·
0 评论 ·
9 收藏

多智能体强化学习入门(五)——QMIX算法分析

本文内容见 https://zhuanlan.zhihu.com/p/55003734
原创
发布博客 2019.01.16 ·
7856 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

【强化学习】DRQN详解分析

本节内容见https://zhuanlan.zhihu.com/p/54898904
原创
发布博客 2019.01.15 ·
5927 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

多智能体强化学习入门(三)——矩阵博弈中的分布式学习算法

本节内容在https://zhuanlan.zhihu.com/p/53622102
原创
发布博客 2019.01.02 ·
1544 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

多智能体强化学习入门(四)——MADDPG算法

本节内容在https://zhuanlan.zhihu.com/p/53811876。
原创
发布博客 2019.01.02 ·
17090 阅读 ·
1 点赞 ·
0 评论 ·
18 收藏

多智能体强化学习入门(二)——基础算法(MiniMax-Q,NashQ,FFQ,WoLF-PHC)

本节内容在https://zhuanlan.zhihu.com/p/53563792。
原创
发布博客 2018.12.29 ·
7929 阅读 ·
1 点赞 ·
0 评论 ·
11 收藏

多智能体强化学习入门(一)——基础知识与博弈

本次开一个专栏,用来分享关于多智能体强化学习方面的入门内容。强化学习在单体稳定环境中取得了非常好的效果,DeepMind,OpenAI目前都在把眼光投向了多智能体强化学习,尤其是分布式的算法。本节内容分享在https://zhuanlan.zhihu.com/p/53474965。...
原创
发布博客 2018.12.29 ·
14306 阅读 ·
2 点赞 ·
1 评论 ·
39 收藏

【强化学习】确定性策略强化学习-DPG&DDPG算法推导及分析

一、DGP推导本篇介绍确定性策略梯度算法,该算法主要用于off-policy(on-policy也能用)。在DQN等值函数估计算法中,最终策略的形式是需要对动作状态值函数取极大a=argmaxa′Q(s,a′)a={\rm argmax}_{a'}Q(s,a')a=argmaxa′​Q(s,a′),这种方法只能用在有限的离散动作空间中,无法应用在较大离散空间或...
原创
发布博客 2018.12.07 ·
19647 阅读 ·
10 点赞 ·
2 评论 ·
66 收藏

【强化学习】中Q-learning,DQN等off-policy算法不需要重要性采样的原因

由于Q-learning采用的是off-policy,如下图所示但是为什么不需要重要性采样。其实从上图算法中可以看到,动作状态值函数是采用1-step更新的,每一步更新的动作状态值函数的R都是执行本次A得到的,而我们更新的动作状态值函数就是本次执行的动作A的Q(S,A)Q(S,A)Q(S,A)。就算A不是通过greedygreedygreedy策略选择的(是通过ϵ−greedy\epsilon...
原创
发布博客 2018.12.07 ·
4723 阅读 ·
9 点赞 ·
0 评论 ·
8 收藏

【强化学习】值函数强化学习-DQN、DDQN和Dueling DQN算法公式推导分析

一、值函数估计方法引入在值函数估计方法中,我们希望拟合一个价值模型用来估计每个状态动作对的累积回报。其代价函数可以写为L=12∑a∑s(Q(s,a)−Q(s,a;θ))2L=\frac{1}{2}\sum_{a}\sum_{s}(Q(s,a)-Q(s,a;\theta))^2L=21​a∑​s∑​(Q(s,a)−Q(s,a;θ))2其中Q(s,a)Q(s,a)Q(s,a)为真实的累积回报...
原创
发布博客 2018.12.05 ·
15071 阅读 ·
18 点赞 ·
0 评论 ·
87 收藏

【强化学习】随机策略梯度算法(stochastic-policy-gradient)

策略搜索方法相对于值函数法有如下优缺点优点:直接策略搜索方法是对策略π\piπ进行参数化表示,与值函数方中对值函数进行参数化表示相比,策略参数化更简单,有更好的收敛性。利用值函数方法求解最优策略时,策略改进需要求解argmaxaQθ(s,a)argmax_a Q_\theta(s,a)argmaxa​Qθ​(s,a),当要解决的问题动作空间很大或者动作为连续集时,该式无法有效求解。直接策...
原创
发布博客 2018.12.04 ·
9894 阅读 ·
11 点赞 ·
2 评论 ·
24 收藏

共轭梯度法详细推导分析

共轭梯度法是一种经典的优化算法。算法求解速度较快,虽然比梯度下降法复杂,但是比二阶方法简单。一、引入1. 优化模型建立假定待优化的问题如下所示:min⁡xf(x)=12xTAx−bTx\min_{x} f(x)=\frac{1}{2}x^TAx - b^Txxmin​f(x)=21​xTAx−bTx其中xxx为待优化变量,AAA为半正定矩阵(在线性代数中,正定矩阵为对称矩阵),bbb...
原创
发布博客 2018.11.29 ·
42466 阅读 ·
85 点赞 ·
20 评论 ·
333 收藏

XGBoost论文原理公式推导

目标函数Obj(Θ)=L(Θ)+Ω(Θ)Obj(\Theta) = L(\Theta) + \Omega(\Theta)Obj(Θ)=L(Θ)+Ω(Θ)其中L(Θ)L(\Theta)L(Θ)为损失(误差)函数,Ω(Θ)\Omega(\Theta)Ω(Θ)为正则化项。模型Obj(Θ)=∑i=0nl(yi,y^i)+∑k=1KΩ(fk)y^it=∑k=1tfk(xi)=y^it−1+ft(...
原创
发布博客 2018.11.09 ·
393 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

算法面试中的逻辑题

1. 射影定理在直角三角形中,斜边上的高是两条直角边在斜边射影的比例中项,每一条直角边又是这条直角边在斜边上的射影和斜边的比例中项。BD2=AD∗DCAB2=AD∗ACBC2=CD∗ACBD^2=AD*DC\\AB^2=AD*AC\\BC^2=CD*ACBD2=AD∗DCAB2=AD∗ACBC2=CD∗AC2. 硬币生成等价事件取大于事件数的最小二进制数。0表示反,1表示正。然后...
原创
发布博客 2018.11.09 ·
788 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

算法题4

1. 课程表 II现在你总共有 n 门课需要选,记为 0 到 n-1。在选修某些课程之前需要一些先修课程。 例如,想要学习课程 0 ,你需要先完成课程 1 ,我们用一个匹配来表示他们: [0,1]给定课程总量以及它们的先决条件,返回你为了学完所有课程所安排的学习顺序。可能会有多个正确的顺序,你只要返回一种就可以了。如果不可能完成所有课程,返回一个空数组。输入: 4, [[1,0],[2...
原创
发布博客 2018.11.09 ·
567 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

算法题3

1. 三角形最小路径和给定一个三角形,找出自顶向下的最小路径和。每一步只能移动到下一行中相邻的结点上。例如,给定三角形:[[2],[3,4],[6,5,7],[4,1,8,3]]自顶向下的最小路径和为 11(即,2 + 3 + 5 + 1 = 11)。分析:自下而上动态规划,建立一个大小为n的help矩阵,用来保存走到当前层各个位置的最短路径,然后一层层向上累积。int...
原创
发布博客 2018.11.09 ·
416 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

算法题2

1. 变态跳台阶一只青蛙一次可以跳上1级台阶,也可以跳上2级……它也可以跳上n级。求该青蛙跳上一个n级的台阶总共有多少种跳法。分析:f(n)=f(1)+f(2)+...+f(n−1)+1f(n)=f(1)+f(2)+...+f(n-1)+1f(n)=f(1)+f(2)+...+f(n−1)+12. 矩形覆盖我们可以用2*1的小矩形横着或者竖着去覆盖更大的矩形。请问用n个2*1的小矩形...
原创
发布博客 2018.11.09 ·
908 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

队列与栈面试题C++

概念1.图的深度优先遍历(DFS) 可以用栈实现,从根结点开始沿左孩子到最深的节点压入栈中,然后依次弹出,若栈顶节点还有没有访问的孩子,则没访问过得孩子入栈直到最深的节点,然后再弹出。元素入栈顺序则为深度优先遍历顺序。 2.图的宽度优先遍历(BFS) 可以用队列实现,将根结点放入队列,每弹出一个节点,就将该节点的孩子全部放入队列,放入队列的顺序为宽度优先遍历顺序。示例一实现一...
原创
发布博客 2018.11.09 ·
570 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多