深度强化学习实验室
官网:http://www.neurondance.com/
论坛:http://deeprl.neurondance.com/
3月10日,南栖仙策宣布获总额数千万元的Pre-A轮融资,高瓴创投领投,杭州云栖创投、老股东涌铧投资、演化博弈跟投。募集资金将重点用于南栖仙策智能决策产品的研发与升级,完善行业客户销售及服务体系建设,以更好地满足企业客户在数智化转型过程中对智能决策产品和服务的需求,同时进一步推动南栖仙策与高瓴多元化产业的协同。
南栖仙策创始人俞扬表示:“我国的AI技术正在、也必然将从追随转变为领先,这样的转变看似前进一步,但面临着包括评价标准的系统性转变,对于投资者也提出很高的要求,需要有对未来的独到眼光和独立判断。南栖仙策在通用智能决策的无人区奔跑,特别需要和我们一样有技术信仰、相信能够创造未来的投资人。高瓴创投‘热爱技术、相信创新’的理念与我们高度一致,很幸运能得到高瓴创投以及跟投机构的信任和支持。南栖仙策将持续革新通用智能决策技术,打造智能行动力引擎,迎接产业智能化革命”。
领投方高瓴创投合伙人李强表示:“南栖仙策拥有的原发创新技术,代表着人工智能在认知智能阶段的最新成果。当国际巨头还在试探智能决策能否走出游戏环境时,南栖仙策已构建了独特的开放环境自主决策核心技术,完成了创造虚拟、推演结果和智能决策的落地流程,实现了从0到1的突破。高瓴相信,作为智能决策赛道里新一代AI企业,南栖仙策凭借核心技术的创新力和产品化落地的执行力,在企业不同业务和经营目标下均能够给出对应的智能决策解决方案,帮助企业提升效率,从而为企业长期创造价值。”
关于南栖仙策
南栖仙策 (Polixir)专注于通用智能决策领域,独特的开放环境自主决策的核心技术,打破了 AlphaGo 等以往技术无法突破封闭环境的屏障,实现了实际业务中智能决策的落地,在多种业务场景得以验证。
南栖仙策是南京大学人工智能创新研究院技术孵化企业,大力投入基础研发,用技术革新创造客户价值,致力于在广泛的业务中释放人工智能的决策力量,成为人工智能工业革命的领导者。
(http://www.polixir.ai/)
关于高瓴创投
高瓴创投(GL Venture)是高瓴旗下专注于早期创新型公司的创业投资基金,覆盖软件与硬科技、生物医药与医疗器械、消费互联网与科技、新兴消费品牌等重点领域。高瓴创投寻找一切热爱技术、相信创新的创业者,希望成为创业者寻求融资时的first call,更期待能长期陪跑创业者的创业旅程。
关于深度强化学习实验室
深度强化学习实验室一个开源开放、共享共进的强化学习学术组织、线上创新实验室,实验室成员来自于国内知名高校,公司等。实验室致力于探索最前沿的DeepRL技术、让学习者结识志同道合的伙伴、成为最优秀的DeepRL Dancer。
(http://www.neurondance.com/)
完
总结3: 《强化学习导论》代码/习题答案大全
总结6: 万字总结 || 强化学习之路
完
第103篇:解决MAPPO(Multi-Agent PPO)技巧
第102篇:82篇AAAI2021强化学习论文接收列表
第101篇:OpenAI科学家提出全新强化学习算法
第100篇:Alchemy: 元强化学习(meta-RL)基准环境
第98篇:全面总结(值函数与优势函数)的估计方法
第97篇:MuZero算法过程详细解读
第96篇: 值分布强化学习(Distributional RL)总结
第95篇:如何提高"强化学习算法模型"的泛化能力?
第94篇:多智能体强化学习《星际争霸II》研究
第93篇:MuZero在Atari基准上取得了新SOTA效果
第91篇:详解用TD3算法通关BipedalWalker环境
第88篇:分层强化学习(HRL)全面总结
第85篇:279页总结"基于模型的强化学习方法"
第84篇:阿里强化学习领域研究助理/实习生招聘
第83篇:180篇NIPS2020顶会强化学习论文
第81篇:《综述》多智能体强化学习算法理论研究
第80篇:强化学习《奖励函数设计》详细解读
第79篇: 诺亚方舟开源高性能强化学习库“刑天”
第77篇:深度强化学习工程师/研究员面试指南
第75篇:Distributional Soft Actor-Critic算法
第74篇:【中文公益公开课】RLChina2020
第73篇:Tensorflow2.0实现29种深度强化学习算法
第72篇:【万字长文】解决强化学习"稀疏奖励"
第71篇:【公开课】高级强化学习专题
第70篇:DeepMind发布"离线强化学习基准“
第66篇:分布式强化学习框架Acme,并行性加强
第65篇:DQN系列(3): 优先级经验回放(PER)
第64篇:UC Berkeley开源RAD来改进强化学习算法
第61篇:David Sliver 亲自讲解AlphaGo、Zero
第59篇:Agent57在所有经典Atari 游戏中吊打人类
第58篇:清华开源「天授」强化学习平台
第57篇:Google发布"强化学习"框架"SEED RL"
第53篇:TRPO/PPO提出者John Schulman谈科研
第52篇:《强化学习》可复现性和稳健性,如何解决?
第51篇:强化学习和最优控制的《十个关键点》
第50篇:微软全球深度强化学习开源项目开放申请
第49篇:DeepMind发布强化学习库 RLax
第48篇:AlphaStar过程详解笔记
第47篇:Exploration-Exploitation难题解决方法
第45篇:DQN系列(1): Double Q-learning
第44篇:科研界最全工具汇总
第42篇:深度强化学习入门到精通资料综述
第41篇:顶会征稿 || ICAPS2020: DeepRL
第40篇:实习生招聘 || 华为诺亚方舟实验室
第39篇:滴滴实习生|| 深度强化学习方向
第37篇:Call For Papers# IJCNN2020-DeepRL
第36篇:复现"深度强化学习"论文的经验之谈
第35篇:α-Rank算法之DeepMind及Huawei改进
第34篇:从Paper到Coding, DRL挑战34类游戏
第31篇:强化学习,路在何方?
第30篇:强化学习的三种范例
第29篇:框架ES-MAML:进化策略的元学习方法
第28篇:138页“策略优化”PPT--Pieter Abbeel
第27篇:迁移学习在强化学习中的应用及最新进展
第26篇:深入理解Hindsight Experience Replay
第25篇:10项【深度强化学习】赛事汇总
第24篇:DRL实验中到底需要多少个随机种子?
第23篇:142页"ICML会议"强化学习笔记
第22篇:通过深度强化学习实现通用量子控制
第21篇:《深度强化学习》面试题汇总
第20篇:《深度强化学习》招聘汇总(13家企业)
第19篇:解决反馈稀疏问题之HER原理与代码实现
第17篇:AI Paper | 几个实用工具推荐
第16篇:AI领域:如何做优秀研究并写高水平论文?
第15篇:DeepMind开源三大新框架!
第13篇:OpenSpiel(28种DRL环境+24种DRL算法)
第11篇:DRL在Unity自行车环境中配置与实践
第8篇:ReinforceJS库(动态展示DP、TD、DQN)
第5篇:深度强化学习在阿里巴巴的技术演进
第4篇:深度强化学习十大原则
第2篇:深度强化学习的加速方法