【最新重磅整理】82篇AAAI2021强化学习领域论文接收列表

深度强化学习实验室

官网:http://www.neurondance.com/

论坛http://deeprl.neurondance.com/

作者:深度强化学习实验室&AMiner

编辑:DeepRL

416:  Robust  Reinforcement  Learning:  A  Case  Study  in  Linear  Quadratic  Regulation  

Bo  Pang,  Zhong-­‐Ping  Jiang

676:  Scalable  First-­‐Order  Methods  for  Robust  MDPs  

Julien  Grand  Clement,  Christian  Kroer

710:  Maintenance  of  Social  Commitments  in  Multiagent  Systems  

Pankaj  Telang,  Munindar  Singh,  Neil  Yorke-­‐Smith

1137:  Self-­‐Supervised  Attention-­‐Aware  Reinforcement  Learning  

Haiping  Wu,  Khimya  Khetarpal,  Doina  Precup

1169:  Hierarchical  Reinforcement  Learning  for  Integrated  Recommendation  

Ruobing  Xie,  Shaoliang  Zhang,  Rui  Wang,  Feng  Xia,  Leyu  Lin

2088:  Combining  Reinforcement  Learning  with  Lin-­‐Kernighan-­‐Helsgaun  Algorithm  for  the  Traveling  Salesman  Problem  

Jiongzhi  Zheng,  Kun  He,  Jianrong  Zhou,  Yan  Jin,  Chumin  Li

2136:  Learning  to  Reweight  Imaginary  Transitions  for  Model-­‐Based  Reinforcement  Learning  

Wenzhen  Huang,  Qiyue  Yin,  Junge  Zhang,  KAIQI  HUANG

2294:  Exploration-­‐Exploitation  in  Multi-­‐Agent  Learning:  Catastrophe  Theory  Meets  Game  Theory  

Stefanos  Leonardos,  Georgios  Piliouras

2431:  Advice-­‐Guided  Reinforcement  Learning  in  a  Non-­‐Markovian  Environment  

Daniel  Neider,  Jean-­‐Raphaël  Gaglione,  Ivan  Gavran,  Ufuk  Topcu,  Bo  Wu,  Zhe  Xu

2441:  Content  Masked  Loss:  Human-­‐Like  Brush  Stroke  Planning  in  a  Reinforcement  Learning  Painting  Agent  

Peter  Schaldenbrand,  Jean  Oh

2453:  Metrics  and  Continuity  in  Reinforcement  Learning  

Charline  Le  Lan,  Marc  G.  Bellemare,  Pablo  Samuel  Castro

2666:  Synthesis  of  Search  Heuristics  for  Temporal  Planning  via  Reinforcement  Learning  

Andrea  Micheli,  Alessandro  Valentini

2971:  Lipschitz  Lifelong  Reinforcement  Learning  

Erwan  Lecarpentier,  David  Abel,  Kavosh  Asadi,  Yuu  Jinnai,  Emmanuel  Rachelson,  Michael  L.  Littman

3011:  Exact  Reduction  of  Huge  Action  Spaces  in  General  Reinforcement  Learning  

Sultan  Javed  Majeed,  Marcus  Hutter

3094:  Visual  Tracking  via  Hierarchical  Deep  Reinforcement  Learning  

Dawei  Zhang,  Zhonglong  Zheng,  Riheng  Jia,  Minglu  Li

3193:  Adaptive  Prior-­‐Dependent  Correction  Enhanced  Reinforcement  Learning  for  Natural  Language  Generation  

Wei  Cheng,  Ziyan  Luo,  Qiyue  Yin

3279:  A  Hybrid  Stochastic  Gradient  Hamiltonian  Monte  Carlo  Method  

Chao  Zhang,  Zhijian  Li,  Zebang  Shen,  Jiahao  Xie,  Hui  Qian

3412:  Sequential  Generative  Exploration  Model  for  Partially  Observable  Reinforcement  Learning  

Haiyan  Yin,  Jianda  Chen,  Sinno  Pan,  Sebastian  Tschiatschek

3679:  Learning  Task-­‐Distribution  Reward  Shaping  with  Meta-­‐Learning  

Haosheng  Zou,  Tongzheng  Ren,  Dong  Yan,  Hang  Su,  Jun  Zhu

3727:  Visual  Comfort  Aware-­‐Reinforcement  Learning  for  Depth  Adjustment  of  Stereoscopic  3D  Images  

Hak  Gu  Kim,  Minho  Park,  Sangmin  Lee,  Seongyeop  Kim,  Yong  Man  Ro

3812:  Scheduling  of  Time-­‐Varying  Workloads  Using  Reinforcement  Learning  

Shanka  Subhra  Mondal,  Nikhil  Sheoran,  Subrata  Mitra

4386:  DEAR:  Deep  Reinforcement  Learning  for  Online  Advertising  Impression  in  Recommender  Systems  

Xiangyu  Zhao,  Changsheng  Gu,  Haoshenglun  Zhang,  Xiwang  Yang,  Xiaobing  Liu,  Jiliang  Tang  ,  Hui  Liu

4719:  Complexity  and  Algorithms  for  Exploiting  Quantal  Opponents  in  Large  Two-­‐Player  Games  

David  Milec,  Jakub  Cerny,  Viliam  Lisy,  Bo  An

4999:  Bayesian  Optimized  Monte  Carlo  Planning  

John  Mern,  Anil  Yildiz,  Zachary  Sunberg,  Tapan  Mukerji,  Mykel  Kochenderfer

5008:  Towards  Effective  Context  for  Meta-­‐Reinforcement  Learning:  An  Approach  Based  on  Contrastive  Learning  

Haotian  Fu,  Hongyao  Tang,  Jianye  Hao,  Chen  Chen,  Xidong  Feng,  Dong  Li,  Wulong  Liu

5012:  Improved  POMDP  Tree  Search  Planning  with  Prioritized  Action  Branching  

John  Mern,  Anil  Yildiz,  Lawrence  Bush,  Tapan  Mukerji,  Mykel  Kochenderfer

5046:  Anytime  Heuristic  and  Monte  Carlo  Methods  for  Large-­‐Scale  Simultaneous  Coalition  Structure  Generation  and  Assignment  

Fredrik  Präntare,  Fredrik  Heintz,  Herman  Appelgren

5101:  Reinforcement  Learning  with  Trajectory  Feedback  

Yonathan  Efroni,  Nadav  Merlis,  Shie  Mannor

5167:  Encoding  Human  Domain  Knowledge  to  Warm  Start  Reinforcement  Learning  

Andrew  Silva,  Matthew  Gombolay

5284:  GLIB:  Efficient  Exploration  for  Relational  Model-­‐Based  Reinforcement  Learning  via  Goal-­Literal  Babbling  

Rohan  Chitnis,  Tom  Silver,  Joshua  Tenenbaum,  Leslie  Kaelbling,  Tomas  Lozano-­‐Perez

5303:  Provably  Good  Solutions  to  the  Knapsack  Problem  via  Neural  Networks  of  Bounded  Size  

Christoph  Hertrich,  Martin  Skutella

5320:  WCSAC:  Worst-­‐Case  Soft  Actor  Critic  for  Safety-­‐Constrained  Reinforcement  Learning  

Qisong  Yang,  Thiago  D.  Simão,  Simon  H  Tindemans,  Matthijs  T.  J.  Spaan

5334:  Queue-­‐Learning:  A  Reinforcement  Learning  Approach  for  Providing  Quality  of  Service  

Majid  Raeis,  Ali  Tizghadam,  Alberto  Leon-­‐Garcia

5546:  Improving  Sample  Efficiency  in  Model-­‐Free  Reinforcement  Learning  from  Images  

Denis  Yarats,  Amy  Zhang,  Ilya  Kostrikov,  Brandon  Amos,  Joelle  Pineau,  Rob  Fergus

5657:  A  Sample-­‐Efficient  Algorithm  for  Episodic  Finite-­‐Horizon  MDP  with  Constraints  

Krishna  C  Kalagarla,  Rahul  Jain,  Pierluigi  Nuzzo

5712:  Resilient  Multi-­‐Agent  Reinforcement  Learning  with  Adversarial  Value  Decomposition  

Thomy  Phan,  Lenz  Belzner,  Thomas  Gabor,  Andreas  Sedlmeier,  Fabian  Ritz,  Claudia  Linnhoff-­Popien

5906:  Domain  Adaptation  in  Reinforcement  Learning  via  Latent  Unified  State  Representation  

Jinwei  Xing,  Takashi  Nagata,  Kexin  Chen,  Xinyun  Zou,  Emre  Neftci,  Jeffrey  Prof.  Krichmar

5930:  Uncertainty-­‐Aware  Policy  Optimization:  A  Robust,  Adaptive  Trust  Region  Approach  

James  Queeney,  Ioannis  Paschalidis,  Christos  G.  Cassandras

5971:  Deep  Recurrent  Belief  Propagation  Network  for  POMDPs  

Yuhui  Wang,  Xiaoyang  Tan

6031:  Inverse  Reinforcement  Learning  from  Like-­‐Minded  Teachers  

Ritesh  Noothigattu,  Tom  Yan,  Ariel  D  Procaccia

6049:  FontRL:  Chinese  Font  Synthesis  via  Deep  Reinforcement  Learning  

Yitian  Liu,  Zhouhui  Lian

6070:  Coordination  between  Individual  Agents  in  Multi-­‐Agent  Reinforcement  Learning  

Yang  Zhang,  Qingyu  Yang,  Dou  An,  Chengwei  Zhang

6211:  Constrained  Risk-­‐Averse  Markov  Decision  Processes  

Mohamadreza  Ahmadi,  Ugo  Rosolia,  Michel  Ingham,  Richard  M  Murray,  Aaron  Ames

6310:  A  Deep  Reinforcement  Learning  Approach  to  First-­‐Order  Logic  Theorem  Proving  

Maxwell  Crouse,  Ibrahim  Abdelaziz,  Bassem  Makni,  Spencer  Whitehead,  Cristina  Cornelio,  Pavan  Kapanipathi,  Kavitha  Srinivas,  Veronika  Thost,  Michael  Witbrock,  Achille  Fokoue

6343:  The  Maximin  Support  Method:  An  Extension  of  the  D’Hondt  Method  to  Approval-­‐Based  Multiwinner  Elections  

Luis  Sanchez-­‐Fernandez,  Norberto  Fernández  García,  Jesús  Fisteus,  Markus  Brill

6428:  Reinforcement  Learning  Based  Multi-­‐Agent  Resilient  Control:  From  Deep  Neural  Networks  to  an  Adaptive  Law  

Jian  Hou,  Fangyuan  Wang,  Lili  Wang,  Zhiyong  Chen

6610:  Learning  Game-­‐Theoretic  Models  of  Multiagent  Trajectories  Using  Implicit  Layers  

Philipp  Geiger,  Christoph-­‐Nikolas  Straehle

6977:  DeepTrader:  A  Deep  Reinforcement  Learning  Approach  for  Risk-­‐Return  Balanced  Portfolio Management  with  Market  Conditions  Embedding  

Zhicheng  Wang,  Biwei  Huang,  Shikui  Tu,  Kun  Zhang,  Lei  Xu

7018:  Reinforcement  Learning  with  a  Disentangled  Universal  Value  Function  for  Item  Recommendation  

Kai  Wang,  Zhene  Zou,  Qilin  Deng,  Jianrong  Tao,  Runze  Wu,  Changjie  Fan,  Liang  Chen,  Peng  Cui

7394:  Learning  Model-­‐Based  Privacy  Protection  under  Budget  Constraints  

Junyuan  Hong,  Haotao  Wang,  Zhangyang  Wang,  Jiayu  Zhou

7572:  Towards  Fully  Automated  Manga  Translation  

Ryota  Hinami,  Shonosuke  Ishiwatari,  Kazuhiko  Yasuda,  Yusuke  Matsui

7657:  The  Value-­‐Improvement  Path:  Towards  Better  Representations  for  Reinforcement  Learning  

Will  Dabney,  Andre  Barreto,  Mark  Rowland,  Robert  Dadashi,  John  Quan,  Marc  G.  Bellemare,  David  Silver

7812:  Text-­‐Based  RL  Agents  with  Commonsense  Knowledge:  New  Challenges,  Environments  and  Baselines  

Keerthiram  Murugesan,  Mattia  Atzeni,  Pavan  Kapanipathi,  Pushkar  Shukla,  Sadhana  Kumaravel,  Gerald  Tesauro,  Kartik  Talamadupula,  Mrinmaya  Sachan,  Murray  Campbell

7911:  DSLR  :  Dynamic  to  Static  Lidar  Scan  Reconstruction  Using  Adversarially  Trained  Auto  Encoder  

Prashant  Kumar,  Sabyasachi  Sahoo,  Vanshil  Shah,  Vineetha  Kondameedi,  Abhinav  Jain,  Akshaj  Verma,  Chiranjib  Bhattacharyya,  Vinay  Vishwanath

7936:  Dynamic  Automaton-­‐Guided  Reward  Shaping  for  Monte  Carlo  Tree  Search  

Alvaro  Velasquez,  Brett  Bissey,  Lior  Barak,  Andre  Beckus,  Ismail  Alkhouri,  Daniel  Melcer,  George  Atia

7952:  Sample  Efficient  Reinforcement  Learning  with  REINFORCE  

Junzi  Zhang,  Jongho  Kim,  Brendan  O'Donoghue,  Stephen  Boyd

8029:  Reinforcement  Learning  of  Sequential  Price  Mechanisms  

Gianluca  Brero,  Alon  Eden,  Matthias  Gerstgrasser,  David  Parkes,  Duncan  Rheingans-­‐Yoo

8042:  Robust  Finite-­‐State  Controllers  for  Uncertain  POMDPs  

Murat  Cubuktepe,  Nils  Jansen,  Sebastian  Junges,  Ahmadreza  Marandi,  Marnix  Suilen,  Ufuk  Topcu

8168:  TAC:  Towered  Actor  Critic  for  Handling  Multiple  Action  Types  in  Reinforcement  Learning  for  Drug  Discovery  

Sai  Krishna  Gottipati,  Yashaswi  Pathak,  Boris  Sattarov,  .  Sahir,  Rohan  Nuttall,  Mohammad  Amini, Matthew  E.  Taylor,  Sarath  Chandar

8181:  Learning  with  Safety  Constraints:  Sample  Complexity  of  Reinforcement  Learning  for  Constrained  MDPs  

Aria  HasanzadeZonuzy,  Archana  Bura,  Dileep  Kalathil,  Srinivas  Shakkottai

8186:  Solving  Common-­‐Payoff  Games  with  Approximate  Policy  Iteration  

Samuel  Sokota,  Edward  Lockhart,  Finbarr  Timbers,  Elnaz  Davoodi,  Ryan  D'Orazio,  Neil  Burch,  Martin  Schmid,  Michael  Bowling,  Marc  Lanctot

8323:  DeepSynth:  Automata  Synthesis  for  Automatic  Task  Segmentation  in  Deep  Reinforcement  Learning  

Mohammadhosein  Hasanbeig,  Natasha  Yogananda  Jeppu,  Alessandro  Abate  ,  Tom  Melham,  Daniel  Kroening

8398:  Inverse  Reinforcement  Learning  with  Explicit  Policy  Estimates  

Navyata  Sanghvi,  Shinnosuke  Usami,  Mohit  Sharma,  Joachim  Groeger,  Kris  Kitani

8545:  Mean-­‐Variance  Policy  Iteration  for  Risk-­‐Averse  Reinforcement  Learning  

Shangtong  Zhang,  Bo  Liu,  Shimon  Whiteson

8556:  Iterative  Bounding  MDPs:  Learning  Interpretable  Policies  via  Non-­‐Interpretable  Methods  

Nicholay  Topin,  Stephanie  Milani,  Fei  Fang,  Manuela  Veloso

8619:  Temporal-­‐Logic-­‐Based  Reward  Shaping  for  Continuing  Reinforcement  Learning  Tasks  

Yuqian  Jiang,  Sudarshanan  Bharadwaj,  Bo  Wu,  Rishi  Shah,  Ufuk  Topcu,  Peter  Stone

8771:  Online  3D  Bin  Packing  with  Constrained  Deep  Reinforcement  Learning  

Hang  Zhao,  Qijin  She,  Chenyang  Zhu,  Yin  Yang,  Kai  Xu

9385:  A  General  Offline  Reinforcement  Learning  Framework  for  Interactive  Recommendation  

Teng  Xiao,  Donglin  Wang

9457:  Minimax  Regret  Optimisation  for  Robust  Planning  in  Uncertain  Markov  Decision  Processes  

Marc  Rigter,  Bruno  Lacerda,  Nick  Hawes

9459:  Planning  from  Pixels  in  Atari  with  Learned  Symbolic  Representations  

Andrea  Dittadi,  Frederik  K  Drachmann,  Thomas  Bolander

9813:  Combining  Reinforcement  Learning  and  Constraint  Programming  for  Combinatorial  Optimization  

Quentin  Cappart,  Thierry  Moisan,  Louis-­‐Martin  Rousseau,  Isabeau  Prémont-­‐Schwarz,  Andre  Cire

9862:  Distributional  Reinforcement  Learning  via  Moment  Matching  

Thanh  Tang  Nguyen,  Sunil  Gupta,  Svetha  Venkatesh

9869:  Non-­‐Asymptotic  Convergence  of  Adam-­‐Type  Reinforcement  Learning  Algorithms  under  Markovian  Sampling  

Huaqing  Xiong,  Tengyu  Xu,  Yingbin  Liang,  Wei  Zhang

9983:  Data-­‐Driven  Competitive  Algorithms  for  Online  Knapsack  and  Set  Cover  

Ali  Zeynali,  Bo  Sun,  Mohammad  Hajiesmaili,  Adam  Wierman

10000:  Inverse  Reinforcement  Learning  with  Natural  Language  Goals  

Li  Zhou,  Kevin  Small

10014:  Decentralized  Policy  Gradient  Descent  Ascent  for  Safe  Multi-­‐Agent  Reinforcement  Learning  

Songtao  Lu,  Kaiqing  Zhang,  Tianyi  Chen,  Tamer  Basar,  Lior  Horesh

10033:  Visual  Transfer  for  Reinforcement  Learning  via  Wasserstein  Domain  Confusion  

Josh  Roy,  George  Konidaris

10098:  Policy  Optimization  as  Online  Learning  with  Mediator  Feedback  

Alberto  Maria  Metelli,  Matteo  Papini,  Pierluca  D'Oro,  Marcello  Restelli

10284:  Model-­‐Free  Online  Learning  in  Unknown  Sequential  Decision  Making  Problems  and  Games  

Gabriele  Farina

10346:  Deep  Bayesian  Quadrature  Policy  Optimization  

Ravi  Tej  Akella,  Kamyar  Azizzadenesheli,  Mohammad  Ghavamzadeh,  Animashree  Anandkumar,  Yisong  Yue

7256:  K-­‐N-­‐MOMDPs:  Towards  Interpretable  Solutions  for  Adaptive  Management  

Jonathan  Ferrer  Mestres,  Thomas  Dietterich,  Olivier  Buffet,  Iadine  Chades

本文同步发布于《深度强化学习实验室》

http://deeprl.neurondance.com/d/191-84aaai2021

(或点击公众底端“阅读原文”)

总结1:周志华 || AI领域如何做研究-写高水平论文

总结2:全网首发最全深度强化学习资料(永更)

总结3:  《强化学习导论》代码/习题答案大全

总结4:30+个必知的《人工智能》会议清单

总结52019年-57篇深度强化学习文章汇总

总结6:   万字总结 || 强化学习之路

总结7:万字总结 || 多智能体强化学习(MARL)大总结

总结8:深度强化学习理论、模型及编码调参技巧

第101篇:OpenAI科学家提出全新强化学习算法

第100篇:Alchemy: 元强化学习(meta-RL)基准环境

第99篇:NeoRL:接近真实世界的离线强化学习基准

第98篇:全面总结(值函数与优势函数)的估计方法

第97篇:MuZero算法过程详细解读

第96篇:  值分布强化学习(Distributional RL)总结

第95篇:如何提高"强化学习算法模型"的泛化能力?

第94篇:多智能体强化学习《星际争霸II》研究

第93篇:MuZero在Atari基准上取得了新SOTA效果

第92篇:谷歌AI掌门人Jeff Dean获冯诺依曼奖

第91篇:详解用TD3算法通关BipedalWalker环境

第90篇:Top-K Off-Policy  RL论文复现

第89篇:腾讯开源分布式多智能TLeague框架

第88篇:分层强化学习(HRL)全面总结

第87篇:165篇CoRL2020 accept论文汇总

第86篇:287篇ICLR2021深度强化学习论文汇总

第85篇:279页总结"基于模型的强化学习方法"

第84篇:阿里强化学习领域研究助理/实习生招聘

第83篇:180篇NIPS2020顶会强化学习论文

第82篇:强化学习需要批归一化(Batch Norm)吗?

第81篇:《综述》多智能体强化学习算法理论研究

第80篇:强化学习《奖励函数设计》详细解读

第79篇: 诺亚方舟开源高性能强化学习库“刑天”

第78篇:强化学习如何tradeoff"探索"和"利用"?

第77篇:深度强化学习工程师/研究员面试指南

第76篇:DAI2020 自动驾驶挑战赛(强化学习)

第75篇:Distributional Soft Actor-Critic算法

第74篇:【中文公益公开课】RLChina2020

第73篇:Tensorflow2.0实现29种深度强化学习算法

第72篇:【万字长文】解决强化学习"稀疏奖励"

第71篇:【公开课】高级强化学习专题

第70篇:DeepMind发布"离线强化学习基准“

第69篇:深度强化学习【Seaborn】绘图方法

第68篇:【DeepMind】多智能体学习231页PPT

第67篇:126篇ICML2020会议"强化学习"论文汇总

第66篇:分布式强化学习框架Acme,并行性加强

第65篇:DQN系列(3): 优先级经验回放(PER)

第64篇:UC Berkeley开源RAD来改进强化学习算法

第63篇:华为诺亚方舟招聘 || 强化学习研究实习生

第62篇:ICLR2020- 106篇深度强化学习顶会论文

第61篇:David Sliver 亲自讲解AlphaGo、Zero

第60篇:滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇:Agent57在所有经典Atari 游戏中吊打人类

第58篇:清华开源「天授」强化学习平台

第57篇:Google发布"强化学习"框架"SEED RL"

第56篇:RL教父Sutton实现强人工智能算法的难易

第55篇:内推 ||  阿里2020年强化学习实习生招聘

第54篇:顶会 || 65篇"IJCAI"深度强化学习论文

第53篇:TRPO/PPO提出者John Schulman谈科研

第52篇:《强化学习》可复现性和稳健性,如何解决?

第51篇:强化学习和最优控制的《十个关键点》

第50篇:微软全球深度强化学习开源项目开放申请

第49篇:DeepMind发布强化学习库 RLax

第48篇:AlphaStar过程详解笔记

第47篇:Exploration-Exploitation难题解决方法

第46篇:DQN系列(2): Double DQN 算法

第45篇:DQN系列(1): Double Q-learning

第44篇:科研界最全工具汇总

第43篇:起死回生|| 如何rebuttal顶会学术论文?

第42篇:深度强化学习入门到精通资料综述

第41篇:顶会征稿 ||  ICAPS2020: DeepRL

第40篇:实习生招聘 || 华为诺亚方舟实验室

第39篇:滴滴实习生|| 深度强化学习方向

第38篇:AAAI-2020 || 52篇深度强化学习论文

第37篇:Call For Papers# IJCNN2020-DeepRL

第36篇:复现"深度强化学习"论文的经验之谈

第35篇:α-Rank算法之DeepMind及Huawei改进

第34篇:从Paper到Coding, DRL挑战34类游戏

第33篇:DeepMind-102页深度强化学习PPT

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇:DeepMind开源三大新框架!

第14篇:61篇NIPS2019DeepRL论文及部分解读

第13篇:OpenSpiel(28种DRL环境+24种DRL算法)

第12篇:模块化和快速原型设计Huskarl DRL框架

第11篇:DRL在Unity自行车环境中配置与实践

第10篇:解读72篇DeepMind深度强化学习论文

第9篇:《AutoML》:一份自动化调参的指导

第8篇:ReinforceJS库(动态展示DP、TD、DQN)

第7篇:10年NIPS顶会DRL论文(100多篇)汇总

第6篇:ICML2019-深度强化学习文章汇总

第5篇:深度强化学习在阿里巴巴的技术演进

第4篇:深度强化学习十大原则

第3篇:“超参数”自动化设置方法---DeepHyper

第2篇:深度强化学习的加速方法

第1篇:深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析

  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值