自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 深度强化学习落地方法论(8)——新书推荐《深度强化学习落地指南》

知乎原文链接文章目录记一次成功的ExplorationDRL落地中的“武德”问题本书的创作理念关于强化学习结语大家好,已经很久没有更新这个专栏了,希望当初关注它的知友们还在……我要厚着脸皮解释一下了。本专栏的主题是方法论,而任何方法论都属于有限的经验体系,一旦成型,其更新速率就会显著放慢,就好像成年大树的主干相对稳定,全靠末梢的枝繁叶茂来彰显生命力。当然,停更的这段时间我没有闲着,在更广泛调研和实践的基础上,我对DRL落地过程中的方法论体系重新做了梳理,并汇总成这本书——《深度强化学习落地指南》

2021-08-26 22:00:55 1023

原创 深度强化学习落地方法论(7)——训练篇

文章预览:训练开始前环境可视化数据预处理训练进行中拥抱不确定性DRL通用超参数折扣因子作用原理选取方法Frame Skipping网络结构网络类型网络深度DRL特色超参数DQNDDPGPPO给DRL初学者的建议训练收敛后总结为了保证DRL算法能够顺利收敛,policy性能达标并具有实用价值,结果有说服力且能复现,需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记得GANs刚火起来的时候,因为训练难度高,有人在GitHub上专门开了repository,总结来自学术界和工业界的最新训练经验,各

2021-06-16 13:53:34 3405 1

原创 深度强化学习落地方法论(6)——回报函数篇

目录前言非要手工设计吗?主线reward和稀疏回报问题目标分解和辅助reward总结前言回报函数(reward)设计在DRL应用中是极其重要的一环,通过将任务目标具体化和数值化,reward就如同一种特殊语言,实现了目标与算法之间的沟通,算法工作者在这里面承担了翻译的角色,翻译的好坏体现了其对任务逻辑的理解深度,决定了agent最终是否能学到期望的技能,并直接影响算法的收敛速度和最终性能。结合...

2019-12-05 21:10:14 5956 11

原创 深度强化学习落地方法论(5)——状态空间篇

目录前言状态设计的四个步骤任务分析前言DRL的状态信息代表了agent所感知到的环境信息,以及因自身的action带来的变化。状态信息是agent制定决策和评估其长期收益的依据,而状态设计的好坏直接决定了DRL算法能否收敛、收敛速度以及最终性能,兹事体大,不可不察。通常在一些公共平台,如Gym,大部分domain的状态空间都是现成的,学者们在上边比的是谁的算法收敛快、性能好;然而,在实际项目中...

2019-11-27 21:21:17 7500 7

原创 深度强化学习落地方法论(4)——动作空间篇

在将DRL应用于实际项目时,可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单,而是agent的控制方式往往早就定死了,留给我们发挥的空间很小。我们无法决定DOTA里允许多少种操作,也无法改变一台机器人的关节数量和各自的角度范围,Gym用户甚至从来没为这个问题操过心,action空间有几维,连续还是离散,各种domain早就定义好了,我们根据这些性质判断任务的难度,仅此而已。当然如果你...

2019-11-24 10:23:45 5275 9

原创 深度强化学习落地方法论(3)——算法选择篇

目录前言强化学习——探索和利用的平衡游戏DQNDDPGA3C其他算法前言虽然每年RL方向的paper满天飞,但真正具有普遍实用价值的突破性工作实在不多,大多数还是在经典框架基础上的改进和扩展。DRL常规武器库里的存货主要还是老三样:DQN,DDPG和A3C,它们是深度学习时代最成熟、最能体现智慧结晶的三个DRL框架,你可以在GitHub上找到无数相关代码,有OpenAI,NVIDIA这些大公司...

2019-11-24 10:20:17 3066

原创 深度强化学习落地方法论(2)——需求分析篇

发扬中华传统美德,丑话要说在前面。任何机器学习方法都不是包治百病的灵丹妙药,它们也有各自的“舒适圈”,有时候还相当挑剔。强化学习,无论前面带不带“深度”二字,也同样有着鲜明的优势和局限性,务必要具体问题具体分析。不管公众号吹嘘得多么厉害,我们自己要摆正心态,不是所有需求都适合用DRL做,适合用DRL做的需求也未必能超越传统方法。在我看来,算法工程师的核心能力可以总结成三点:1. 对各种算法本质及...

2019-11-18 22:19:55 1490 3

原创 深度强化学习落地方法论(1)——写在前面

深度强化学习落地宝典写在前面需求分析篇算法选择篇(预告)写在前面随着这波人工智能浪潮的兴起,强化学习(Reinforcement Learning,RL)这坛陈年老酒也借势找到了深度学习这个新瓶子,重新吸引了学术界、工业界乃至吃瓜群众的注意力。对于很多人来说,AI闯入他们视野的标志性事件不是2012年AlexNet的横空出世,而是AlphaGo击败李世石引起的轩然大波。可以这样说,深度强化学习...

2019-11-17 21:41:14 1175 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除