- 博客(20)
- 收藏
- 关注
原创 transformer
Transformertransformer模型结构:attention机制ref3transformer总结李宏毅课程参考资料:1 模型原理详解:https://zhuanlan.zhihu.com/p/441213782 attention机制:https://zhuanlan.zhihu.com/p/434939993 详解transformer子结构的计算方式:https://zhuanlan.zhihu.com/p/596292154 算法流程:https://baijiahao.bai
2021-02-25 22:28:55 277
原创 MADRL(多智能体深度强化学习)
MADRL(多智能体深度强化学习)《多Agent深度强化学习综述》《多Agent深度强化学习综述》从多 agent 深度强化学习中通信过程的角度对现有的多 agent 深度强化学习算法进行归纳,将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策三种主流形式。当前 DRL 的两个主要方向 – 深度 Q 网络和深度策略梯度。一种是用神经网络函数近似Q网络,另一种是将状态空间映射到动作空间的函数或者分布,策略优化的目标是寻找最优的策略映射。两者针对的过程不同连续动作空间的策略梯度算法分为随机策
2021-01-23 09:52:00 13578 2
原创 procgen
如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。参考链接:http://www.atyun.com/47688.html官网:https://openai.com/blog/procgen-benchmark/github:https://github.com/openai/procgen论文:https://cdn.openai.com/procgen.pdf比赛网站:https://www.aicrowd.com/challenges
2020-12-23 21:45:16 1127 1
原创 Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving
如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。论文没有给源代码原文地址:https://arxiv.org/pdf/1610.03295.pdf参考链接:https://zhuanlan.zhihu.com/p/25673276Safe, Multi-Agent, Reinforcement Learning for Autonomous Driving自动驾驶过程实际上是多智能体决策的问题本文把机器学习的方法应用于高级驾驶策略的选择
2020-12-20 20:12:35 606
原创 Constrained Policy Optimization——UC Berkeley
如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。约束型策略优化算法Joshua Achiam(UC Berkeley)原为链接:https://arxiv.org/pdf/1705.10528.pdf参考链接:https://www.sohu.com/a/155588306_465975我们的方法——约束型策略优化(Constrained Policy Optimization——CPO),可以确保智能体在学习过程中的每一步都满足约束条件
2020-12-17 16:58:47 1996
原创 An Optimistic Perspective on Offline Reinforcement Learning
An Optimistic Perspective on Offline Reinforcement Learning摘要1 introduction2 Off-policy Reinforcement Learning如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。原文链接:https://arxiv.org/pdf/1907.04543.pdf参考链接:https://tech.sina.com.cn/roll/2020-04-15/do
2020-12-06 18:17:06 498
原创 自博弈学习初步
如有错误,欢迎指正本文学习过程中的归纳总结如有侵权,请私信本人参考链接:https://blog.csdn.net/weixin_37837522/article/details/91907661https://www.jianshu.com/p/bcbc41125c54https://zhuanlan.zhihu.com/p/30282616对于alphazero的准备知识重点看这一篇https://blog.csdn.net/windowsyun/article/details/88701
2020-12-06 15:09:10 4659
原创 curriculum learning
如有错误,欢迎指正本文学习过程中的归纳总结如有侵权,请私信本人参考链接:https://www.dazhuanlan.com/2019/11/21/5dd617335da12/https://blog.csdn.net/qq_25011449/article/details/82914803关于transfer Learning和fine-tuning的区别就是,transfer Learning是一种理念(concept),而fine-tuning则是其实现的具体方法。而Curriculum
2020-12-06 10:01:09 1060
原创 python实现socket互传json文件
项目需要,在借鉴他人已有代码的基础上实现了用python和socket互传json文件,注意是轮流发送文件。特点是两端均既为服务端也为客户端,建立了两个信道,均可执行向对方发送指令。好处是两者平权,己方文件生成后进行发送,主动给出发送命令。主要借鉴的代码如下,如有任何问题,请与我联系。链接: https://www.cnblogs.com/LyShark/p/11317152.html先发送的一方:import socketimport osimport jsonimport timed
2020-11-05 17:10:49 8147 5
原创 T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects如有错误,欢迎指正摘要3. The T-LESS Dataset如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。原文链接: https://arxiv.org/pdf/1701.05498.pdf参考链接:摘要3. The T-LESS Dataset...
2020-10-11 19:45:15 2378 1
原创 Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images
Learning Analysis-by-Synthesis for 6D Pose Estimation in RGB-D Images如有错误,欢迎指正摘要1 介绍1.1 贡献2 相关工作2.1 Review of the Pose Estimation Method3 方法3.1 The Pose Estimation Task3.2 Probabilistic Model3.3 Convolutional Neural Network3.4 Maximum Likelihood Training3.
2020-10-09 15:00:25 429
原创 PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning
PoseAgent: Budget-Constrained 6D Object Pose Estimation via Reinforcement Learning如有错误,欢迎指正摘要介绍如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。如有侵权,请私信本人。摘要最先进的计算机视觉算法通常通过对下一步要探索的假设进行离散选择来获得效率。这允许将计算资源分配给有希望的候选者,然而,这样的决定是不可微的。因此,这些算法很难进行端到端的训练。在这项工作中,我们提出学习一
2020-10-07 21:06:49 467
原创 ICLR 2020 多智能体强化学习论文总结
ICLR 2020 多智能体强化学习论文总结如有错误,欢迎指正所引用内容链接Multi-Agent RL1.Multi-agent Reinforcement Learning For Networked System Control2.Intrinsic Motivation For Encouraging Synergistic Behavior3.Meta Reinforcement Learning With Autonomous Inference Of Subtask Dependencies4
2020-09-29 11:23:04 5560
原创 Intrinsic Motivation For Encouraging Synergistic Behavior
Intrinsic Motivation For Encouraging Synergistic Behavior如有错误,欢迎指正摘要1 introduction3 approach3.1 COMPOSITIONAL PREDICTION ERROR AS AN INTRINSIC REWARD3.2 PREDICTION DISPARITY AS A DIFFERENTIABLE INTRINSIC REWARD3.3 LEARNING SPARSE-REWARD SYNERGISTIC TASKS4
2020-09-28 10:48:09 410
原创 Meta-Q-Learning
Meta-Q-Learning如有错误,欢迎指正摘要Introductionbackground如有错误,欢迎指正本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。原文链接: https://arxiv.org/pdf/1910.00125v1.pdf.如有侵权,请私信本人。参考链接:https://zhuanlan.zhihu.com/p/109064006.摘要介绍了元强化学习(Meta-Q-Learning,MQL)的一种新的off-policy算法Meta-RL。MQL建
2020-09-27 16:38:57 1324
原创 AAAI 2020多智能体强化论文
强化学习最新论文汇总如有错误,欢迎指正所引用内容链接Multi-Agent RL1. Partner Selection for the Emergence of Cooperation in Multi‐Agent Systems using Reinforcement Learning2. Neighborhood Cognition Consistent Multi‐Agent Reinforcement Learning3. SMIX( ): Enhancing Centralized Value
2020-09-23 15:54:51 927 1
原创 2020ICML多智能体强化学习论文简介
强化学习最新论文汇总如有错误,欢迎指正所引用内容链接强化学习论文汇总2020如有错误,欢迎指正本篇为自我学习过程中的要点记录,仅作学习使用。所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。所引用内容链接强化学习论文汇总2020...
2020-09-22 10:10:48 3218
原创 元强化学习初步
元强化学习如有错误,欢迎指正所引用内容链接元学习元学习方法HyperNetwork 生成参数Conditional Neural Network 条件神经网络MAML 基于梯度的做法优缺点元强化学习概念元强化学习背景元强化学习内容元参数未来方向个人感想如有错误,欢迎指正本篇为自我学习过程中的要点记录,仅作学习使用。所引用内容的链接将全部粘贴于下方,如有侵权,请与本人联系。所引用内容链接让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法: https://www.leiphone.c
2020-09-19 18:31:47 1858
原创 Deep Reinforcement Learning amidst Lifelong Non-Stationarity
Deep Reinforcement Learning amidst Lifelong Non-Stationarity)摘要introductionDPMDPPreliminaries: RL as InferenceA Probabilistic Graphical Model for RLVariational InferenceOff-Policy Reinforcement Learning in Non-Stationary EnvironmentsNon-stationarity as a P
2020-09-18 14:54:47 512 2
原创 写博客最基础
这是我的标题一级目录二级目录快捷键改变文本链接与图片代码片生成列表表格注脚注释数学公式一级目录所以就是要学习 Markdown编辑器 呗。二级目录增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;全新的 KaTeX数学公式 语法;增加了支持甘特图的mermaid语法1 功能;快捷键撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:Ctrl/Command + B斜体:Ctrl/Command + I标题:Ctrl/Command
2020-09-17 23:10:50 106 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人