OpenDILab开源决策智能平台-CSDN博客

原创 Awesome 论文合集｜这些基于AI的蛋白质设计的论文，OpenDILab都帮你整理好了！（1）

OpenDILab 最新发布的 repo，致力于收录整理基于 AI 的蛋白质设计的前沿 paper。

2023-06-28 15:39:43 216

原创混合动作空间｜揭秘创造人工智能的黑魔法（5）

本期来聊聊更通用的混合动作空间建模方法。

2023-06-27 13:16:09 489

原创混合动作空间｜揭秘创造人工智能的黑魔法（4）

还记得我们的混合动作空间专栏吗？从本篇专栏起，我们将为大家讲解基于V函数的混合动作空间算法，包括H-PPO、HiPPO、腾讯绝悟、OpenAI Five，AlphaStar等。

2023-06-26 21:35:36 378

原创混合动作空间｜揭秘创造人工智能的黑魔法（3）

我们将从本篇博客开始，揭秘学术界和工业界解决混合动作空间的种种黑魔法。本篇将介绍，基于Q函数的强化学习混合动作空间算法。

2023-06-20 15:51:14 356

原创混合动作空间｜揭秘创造人工智能的黑魔法（2）

本文则将以游戏环境为例，介绍如何对强化学习的动作空间进行预处理（action space shaping），以提升算法性能和收敛速度。

2023-06-15 16:00:20 301

原创 Awesome 论文合集｜如何追踪 MCTS 的前沿动态？来看看 LightZero 旗下的蒙特卡洛树搜索论文合集吧！（2）

但另一方面，由于 MCTS 系列技术涉及了多种经典算法的拓展与组合，其运行模块的设计就需要包含多方面的内容，进而导致这样的窘境——即虽然算法的能力在不断进步，但是算法的应用难度却逐年升高。不过，已有的开源项目更多偏向于棋类游戏或是入门级示例环境，仍然限制了 MCTS 类算法的应用范围，无法拓展到更多有趣或有意义的用途，研究界最新的技术成果和前沿视角也未能完全融入现有工具，导致相关技术仍然是少数研究者手中的“屠龙之术”。MCTS 是一种高度选择性的、最强优先的搜索方法，能迅速关注搜索空间中最有潜力的区域。

2023-06-13 11:55:23 118

原创 Awesome 论文合集｜如何追踪 MCTS 的前沿动态？来看看 LightZero 旗下的蒙特卡洛树搜索论文合集吧！（1）

LightZero 项目罗列了 MCTS 相关的一系列高水平论文，并会在日后会不断更新。

2023-06-08 20:58:10 109

原创给你一个 PPO × Family 课程，撑起整个决策 AI 宇宙

决策智能入门级公开课 PPO × Family 由中国计算机学会主办，上海人工智能实验室承办，全球高校人工智能学术联盟、北京大学人工智能研究院多智能体中心、浙江大学上海高等研究院、商汤科技协办，知乎、机器之心、智海平台、 Paperweekly 支持。顺利结课的学员还可获得由中国计算机学会颁发的课程学习认证证书。

2022-12-01 11:50:50 851 1

原创今日忌加班，宜玩1024

你可以在试玩 DI-1024（小游戏版）后，体验一下 DI-engine，其中有完整的算法支持、友好的用户接口以及弹性的拓展能力等诸多特性，期待开发者们解锁 AI + X 的各种可能性。喵小 DI给大家准备了一个好玩的自定义关卡，2,0,2,4,0,8,16,4,8,128,256,512,4,1024,2048,4096，大家可以挑战一下~在这个模式中，如果玩 AI 版“1024”一时卡住了，不知道下一步怎么走的话，可以点击“AI助力”按钮，AI 会快速帮助你找到最优路径。1024是一个很美妙的数字，

2022-10-24 21:43:06 1313

原创万事开头难？喵小DI玩“羊了个羊”可不难

DI-sheep 版羊了个羊

2022-09-26 14:54:06 1549

原创 Transformer + RL：是强化学习魔高一尺，还是 Transformer 道高一丈？（1）

进一步地，这种网络结构可以与许多策略相结合，比如V-MPO（Actor-Critic），R2D2（Value-Based），充分让 Transformer 更适应强化学习的优化过程，并利用 Transformer 在宽度和深度易于拓展的优点，在更大的数据集，更大型的，复杂的环境中发挥作用。在那些需要长期记忆的环境中，使用 Transformer 网络的 RL 智能体可以大幅优于常规的 RNN 模型，利用状态和动作在其轨迹中的时序依赖性，捕捉各种长期时序依赖，学习一个更好的表征来去预测下一步的决策行为。...

2022-08-30 21:42:40 3404

原创 awesome-exploration-rl 前沿追踪——如何高效地探索未知的奥秘

我们将继续在仓库中推进强化学习中的探索相关问题的研究进展，包括一些算法文章解读，并结合DI-engine推出一系列探索与利用平衡相关的基准测试和代码，助力各位对 RL 有兴趣的人成为真正的强化学习探索家。同时也欢迎志同道合的小伙伴 Pull Request 相关工作，共同营造健康、可持续的学术生态。参考资料[1]Go-Explore[2]NoisyNet[3][4][5]EX2[6]ICM[7]RND[8]NGU[9]Agent57[10]VIME[11]EMI[12]DIYAN[13]SAC。

2022-08-24 21:12:40 386

原创 Decision Transformer 前沿追踪——万物皆可归于序列预测

DT（Decision Transformer）将 RL 看做一个序列建模问题（Sequence Modeling Problem），不同于传统 RL 方法的建模方法， DT 使用 Transformer 网络直接输出动作（Action）进行决策，从而避免了在 Offline RL 问题中显式的马尔可夫过程建模问题和数据 OOD（Out-of-distribution）导致的 Q-value 过估计问题。...

2022-08-15 20:18:23 2639

原创 OpenDILab提出InterFuser自动驾驶策略，凭借超强性能获居CARLA Leaderboard首位

增强自动驾驶的安全性和可解释性：InterFuser大有可为！

2022-08-09 21:40:47 1465

原创代码设计师｜配置文件的起源与矛盾

许多技术开发者在进行代码设计时，总会遇到各种各样的问题，OpenDILab针对这些问题开设了“代码设计师”系列专栏。

2022-08-01 12:42:10 125

原创 NeurIPS论文解读｜Decision Transformer: 通过序列建模解决离线强化学习问题

今天为大家推荐一篇2021年被NeurIPS收录的一篇论文。《Decision Transformer: reinforcement learning via sequence modeling》推荐读者将本博客结合原论文食用。如有谬误偏颇烦请指出！

2022-07-21 19:13:06 2408 2

原创 Go-Bigger访谈录｜巧用模块化工作拆分法，锵锵三人行

2022年5月28日，OpenDILab举办了全球首届“AI球球大作战：Go-Bigger多智能体决策智能挑战赛”(以下简称“Go-Bigger决策智能挑战赛”)线上颁奖典礼及Workshop。经过半年多的激烈角逐，最终有6支队伍从近1500支队伍中脱颖而出，获得15万赛事奖金。比赛共设冠军、亚军各1名，优胜奖4名，共同瓜分15万赛事奖金，目前各类奖项得主已出。OpenDILab将发布“Go-Bigger决策智能挑战赛访谈录”系列报道，为您揭秘挑战赛选手背后的故事。...

2022-07-12 20:46:56 552

原创强化学习图鉴｜人工智能新兴子领域，分布式强化学习是AI技术未来大规模实用化的关键？

分布式强化学习(Distributed RL)是深度强化学习走向大规模应用，解决复杂决策空间和长期规划问题的必经之路。

2022-07-06 14:49:58 698

原创触手可及的人工智能，大师级游戏AI正在进化

目前是人工智能技术发展最为蓬勃的时代，各行各业无数人都想给自己添上“AI加持”的标签。但说起当下人工智能真正肉眼可见的应用，很多时候又会进入到某些非常专业领域的圈子里。

2022-06-28 17:19:27 2881

原创自动驾驶AI也能像真人司机一样有性格吗？

有没有想过，自动驾驶AI也可以像人类驾驶员一样，变得有自己的“喜笑怒骂”？

2022-06-21 20:41:08 266

转载星际虫王IA退役2年搞AI，现在自叹不如了

这年头，直播讲AI，真算不上什么新鲜事。但要是连职业电竞选手，都开播主讲呢？

2022-06-13 15:47:05 134

原创玩转Python｜类与方法的隐藏秘密（3）

继续来讲讲关于类及其方法的一些冷知识和烫知识

2022-06-07 17:16:55 125

原创混合动作空间 | 创造人工智能的黑魔法(1)

OpenDILab新开设了混合动作空间专栏，将从离散动作空间和连续动作空间入手，为大家介绍混合动作空间的起源和发展，并解读一系列学术界相关paper。本文作为混合动作空间系列专题文章的第一篇，主要是介绍混合动作空间的类型以及经典环境，公式不多，可以放心食用~近年来，强化学习的混合动作空间（Hybrid Action Space) 逐渐成为热门话题。动作空间是强化学习问题里的一个重要设定。我们训练一个人工智能体，都离不开动作空间。动作空间的重要性有以下两点，设计良好的动作空间，对于

2022-05-30 16:54:24 1311

原创报名｜5.28“AI球球大作战：Go-Bigger多智能体决策智能挑战赛”颁奖典礼&Workshop等你来

2021年11月，全球首届“ AI球球大作战：Go-Bigger多智能体决策智能挑战赛”已正式开赛。作为面向全球技术开发者和在校学生的科技类竞赛活动，本次比赛旨在推动决策智能相关领域的技术人才培养，打造全球领先、原创、开放的决策AI开源技术生态。本次比赛由OpenDILab（开源决策智能平台）主办，上海人工智能实验室作为学术指导，商汤科技、巨人网络、上汽集团人工智能实验室联合主办，全球高校人工智能学术联盟、浙江大学上海高等研究院、上海交通大学清源研究院联合协办，OSCHINA、深度强化学习实...

2022-05-25 13:20:56 193 2

m0_55289267的博客