自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Multi-Agent_DRL

研究方向: 多智能体深度强化学习

  • 博客(190)
  • 收藏
  • 关注

原创 计算机图形学

文章目录如何画图如何画图参考文献

2021-06-17 11:49:09 695 1

原创 901 c++

文章目录| 按位或操作| 按位或操作参考文献|=是位操作运算符的一种,其形式为:a|=b代表的含义为a=a|b;即把a和b做按位或(|)操作,结果赋值给a。按位或的计算规则为:逐位进行计算;(不懂, 可省去不看)计算数的同位上值,如果均为0,则结果对应位上值为0;(不懂)除2中情况外,结果对应位上值为1。如 char a = 0x12, b = 0x34;a|=b = 0x12|0x34写为二进制为:B00010010B00110100结果为B00110110即

2021-06-08 17:17:24 147

转载 2021-01-27

原文传送门实做题:森林的节点数量为n,边数为b,要求出森林中的树的个数,以及对应的推导过程。俩个栈共享栈问题。包括了栈1栈2的判空判满条件,以及栈1入队算法,栈2出队算法。AOE网络,计算各事件、活动的最早开始时间与最晚发生时间,并求关键活动与关键路径。使用堆排序,求出前四个最小值的过程,以及在这四个过程中,每一次的比较次数。(本题注意,要使用小顶堆而非大顶堆)算法题:一个单链表,其中每一个节点中的数据为字母、数字或其他。要求建立三个循环单链表,使得这三个循环单链表分别存储原先单链表中的

2021-01-27 21:50:44 150

原创 DRL学习资源

文章目录李宏毅笔记DDPG李宏毅笔记drl课程完整笔记DDPGDDPG理论推导

2021-01-26 17:02:06 159

原创 生活健康常识

不论是搬重物,还是捡起地上的一张纸,先蹲下,然后直腰捡起。如果直接弯腰捡,对腰部压力很大,容易受伤。常坐的椅子或者沙发上,放个靠垫,为你撑腰。用牙线、用含氟牙膏,预防龋齿。健康牙齿才能换来美好笑容……和绝佳食欲。口腔健康方面:每半年洗一次牙,龋齿全部填补好,坚持用牙线。年老时还能有一口健康的牙齿。每年坚持体检。如果是单位体检,我会事先核查体检项目。如果项目对我而言不够全面,会自费加钱把所需项目补全;注射乙肝疫苗,防止肝癌睡前适当的运动, 有助于入睡...

2021-01-23 20:55:57 148 1

转载 复试注意事项

问题四:面试过程中回答不上老师提出的问题怎么办?邓:如何回答问题?我想有如下几点需要注意:一、实事求是,懂就是懂,不懂就不懂,不应该不懂装懂,胡编乱造;二、不懂的内容也不要放弃,首先声明自己没学过或者不懂,然后也要尝试给出自己的观点,这体现一种探索精神;三、表达要清楚,要简洁明了,尽量避免零零散散、模棱两可、不知所云;四、如果涉及自己最熟悉的知识点,回答完老师的问题后,可以稍加拓展,谈谈自己更深入的理解;五、有不懂的问题很正常,切勿慌张,影响后面的回答。...

2021-01-23 10:52:16 81

原创 Actor-Critic

文章目录Critic(通过学习使得自己估值越来越准确)Critic(通过学习使得自己估值越来越准确)

2021-01-19 21:34:45 134

转载 python 多进程与多线程

文章目录通俗解释通俗解释参考文献多线程与多进程的区别多线程 threading: 一个人有与异性聊天和看剧两件事要做。单线程的她可以看完剧再去聊天,但这样子可能就没人陪她聊天了「哼,发消息不回」。我们把她看成一个CPU核心,为她开起多线程——先看一会剧,偶尔看看新消息,在两件事(线程)间来回切换。多线程:单个CPU核心可以同时做几件事,不至于卡在某一步傻等着。用处:爬取网站信息(爬虫),等待多个用户输入多进程 processing: 一个人有很多砖需要搬,他领取手套、推车各种物资(向系统申请

2021-01-15 13:08:36 107

原创 DQN and variant

文章目录1. Q-learning1. Q-learningan algorithm which produces a Q-table that an agent uses to find the best action to take given a state.

2021-01-09 14:43:44 260

原创 英语作文举例子

文章目录努力, 坚持目标话题举例道德 诚信努力, 坚持目标话题举例参考文献Obama, brilliant and noted black president in American history, made significant contribution to American’s advancement。It is obvious what makes him the first ...

2020-12-12 13:05:55 616

原创 2020-11-26

我想声明一个三维字符串数组其中每行有两个字符串。在此,我可以声明:char[][2][MAXSIZE];char *szArray[][2] = { {"string1", "string2"}, {"string3", "string4"}, {"string5", "string6"}, {0, 0}};

2020-11-26 12:28:01 135

原创 虚基类

文章目录作用虚基类构造函数作用虚基类构造函数#include <iostream>using namespace std;class CBase{public: int a;public: CBase(int na) { a=na; cout<<"CBase constructor! "<<endl; } ~CBase(){cout<<"CBase deconstructor! "<<endl;}};

2020-11-15 18:18:40 176

原创 析构函数执行顺序

#include<iostream>static int global_sta = 1; //global_sta为静态全局对象void print(){ int non_local = 2; //non_local为局部对象,非静态的 static sta_local = 3; //sta_local为静态局部对象}

2020-11-15 15:26:36 120

转载 虚函数

而在C++中,没有接口的定义,我们可以定义抽象类来实现像Java中的接口功能。包含纯虚函数的类就是抽象类不能实例化,纯虚函数可以定义为:(本文不考虑函数参数)virtual type functionname()=0;如:#include <iostream>using namespace std;class animal{public: virtual void info()=0;};class dog:public animal{ void info()

2020-11-11 17:42:00 127

转载 ma_rl_新思想

这个解耦的方法很有意思!我们icml 2020也做了个类似的工作,我们的想法是让agent自己去学会不一样的sub-task,然后这些sub-task越diverse它们的解耦性就越好,然后qmix, qtran, vdn这样的基于网络结构的假设就可以去除了。论文链接​...

2020-11-11 12:56:56 148

转载 栈实现深度优先遍历_非递归

#include<stdio.h>#include<stack>#define MAX 100using namespace std;typedef struct{ int e[MAX][MAX]; int ves; int edge; int book[MAX];//标志判断是否有被访问过 }MGraph;void createMGraph(MGraph *G){ int i; int j; int sta

2020-11-03 16:54:05 1360 1

原创 Notability主题配色

文章目录1. 水蜜桃汽水黑色背景1. 水蜜桃汽水黑色背景

2020-10-01 01:21:00 4156

原创 大作文

文章目录1. 社会热点类: 健康1. 社会热点类: 健康

2020-09-16 00:00:16 95

原创 小作文

文章目录1. 投诉信1. 投诉信

2020-09-15 23:48:52 119

原创 limit

左右极限问题

2020-09-15 17:33:24 155

原创 B树

文章目录

2020-09-12 22:09:37 76

原创 Words

文章目录scale 级别scale 级别However, he underestimates the scale of the problem.然而,他低估了问题的严重性。

2020-07-16 20:12:24 95

原创 郭丝用的

前向传播, 三层神经网络def init_network(): network = {} network['W1'] = np.array([[0.1, 0.3, 0.5], [0.2, 0.4, 0.6]]) network['b1'] = np.array([0.1, 0.2, 0.3]) network['W2'] = np.array([[0.1, 0.4], [0.2, 0.5], [0.3, 0.6]]) network['b2'] = np.arra

2020-06-18 19:10:33 198

原创 What works for RL

文章目录在稳定的环境下(如近封闭环境的物流)在稳定的环境下(如近封闭环境的物流)

2020-06-08 21:19:24 105

原创 Deep Deterministic Policy Gradient

文章目录参考的大佬们numpyReplayBuffer参考的大佬们很详细的参考numpyprint(np.random.normal(size=6)) # 默认标准正态分布 μ=0, σ=1, shape = 6[ 1.18306191 0.42100423 1.40213637 -0.17240589 0.02877852 -1.5534178 ]ReplayBufferself.mem_cntr = 0 # the last memory index you store.

2020-05-28 16:27:16 256

原创 分布函数(Distribution Function)

文章目录Normal DistributionNormal Distribution参考文献随机变量是随机实验结果的可能数值的集合。

2020-05-25 21:55:48 788

原创 Value-Based

文章目录蒙特卡洛(监督学习方法)TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾Q value蒙特卡洛(监督学习方法)让 VπV^πVπ无限接近GaG_aGa​(也就是∑t=1nrt\sum_{t=1}^{n}r^t∑t=1n​rt)TD(单步更新)(更常用)有时候游戏太长了,玩不到结尾losslossloss = Vπ(St)−Vπ(St+1)V^π(S_t)-V^π(S_{t+1})Vπ(St​)−Vπ(St+1​)Q value...

2020-05-12 22:33:26 233

原创 Latex从入门到放弃

文章目录单行显示公式(加一个 $ 即可)单行显示公式(加一个 $ 即可)单行显示VπV^πVπ

2020-05-12 21:34:36 130

原创 矩阵求导

文章目录ExamplesExamples

2020-05-10 11:41:15 85

原创 Policy_Based

pick the best actorI’m showing log probabilities (-1.2, -0.36) for UP and DOWN instead of the raw probabilities (30% and 70% in this case) because we always optimize the log probability of the correct label (this makes math nicer, and is equivale...

2020-05-10 11:33:42 136

原创 Paper Reading Weird Words

文章目录heuristicallyaka.heuristicallywithout valid theoretical groundings一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。aka.又名,亦称 (also known as)...

2020-05-07 21:38:49 368

原创 一些术语

文章目录decentralised executionsuboptimal policies(添加自由探索几率, 防止 局部最优)decentralised executioneach agent can select its action based only on its own factorsuboptimal policies(添加自由探索几率, 防止 局部最优)Single ag...

2020-05-07 21:38:26 283

原创 Words Plan

文章目录先做完真题, 从真题中学习自己不认识的词汇先做完真题, 从真题中学习自己不认识的词汇

2020-05-07 11:39:29 84

原创 Mit self-driving

文章目录actions(not the reword)grid system前车与后车, 和自己的距离actions(not the reword)grid system前车与后车, 和自己的距离前车是三个格子

2020-05-04 23:28:26 161

原创 SpringData Jpa

文章目录表命名规范(不使用驼峰法, 替换成加下划线)表命名规范(不使用驼峰法, 替换成加下划线)select seller0_.id as id1_1_, seller0_.address as address2_1_, seller0_.avatar as avatar3_1_, seller0_.bulletin as bul...

2020-05-03 18:02:56 126

原创 What Human Beings Can Understand

MAC(路由器用来记录下一跳的地址)接收数据MAC地址转发数据MAC地址

2020-04-30 17:10:12 114

原创 Common Sense

文章目录Imitation LearningImitation Learning训练采用了imitation learning,这也是目前的主流吧,在这种FPS复杂环境下,高纬度的state and action space,维度灾难是显而易见的,所以他们先让Agent观看人类玩家30分钟的游戏操作之后,再开始训练,加快了policy的训练和收敛速度。...

2020-04-30 10:39:06 123

原创 Cooperative Deep MARL

文章目录AbstractAbstract这个世界就是个大规模多智能体世界,大量智能体协作才是在AGI的正道上。

2020-04-29 11:30:33 211

原创 linear

特征值与特征向量对称矩阵p156

2020-04-13 20:03:01 145

原创 API

API商品列表GET /sell/buyer/product/list参数无返回{ "code": 0, "msg": "成功", "data": [ { "name": "热榜", "type": 1, "foods": [ { ...

2020-04-01 13:48:50 225

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除