自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

wyjjyn的博客

原创深度强化学习落地方法论（8）——新书推荐《深度强化学习落地指南》

知乎原文链接文章目录记一次成功的ExplorationDRL落地中的“武德”问题本书的创作理念关于强化学习结语大家好，已经很久没有更新这个专栏了，希望当初关注它的知友们还在……我要厚着脸皮解释一下了。本专栏的主题是方法论，而任何方法论都属于有限的经验体系，一旦成型，其更新速率就会显著放慢，就好像成年大树的主干相对稳定，全靠末梢的枝繁叶茂来彰显生命力。当然，停更的这段时间我没有闲着，在更广泛调研和实践的基础上，我对DRL落地过程中的方法论体系重新做了梳理，并汇总成这本书——《深度强化学习落地指南》

2021-08-26 22:00:55 1023

原创深度强化学习落地方法论（7）——训练篇

文章预览：训练开始前环境可视化数据预处理训练进行中拥抱不确定性DRL通用超参数折扣因子作用原理选取方法Frame Skipping网络结构网络类型网络深度DRL特色超参数DQNDDPGPPO给DRL初学者的建议训练收敛后总结为了保证DRL算法能够顺利收敛，policy性能达标并具有实用价值，结果有说服力且能复现，需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记得GANs刚火起来的时候，因为训练难度高，有人在GitHub上专门开了repository，总结来自学术界和工业界的最新训练经验，各

2021-06-16 13:53:34 3405 1

原创深度强化学习落地方法论（6）——回报函数篇

目录前言非要手工设计吗？主线reward和稀疏回报问题目标分解和辅助reward总结前言回报函数（reward）设计在DRL应用中是极其重要的一环，通过将任务目标具体化和数值化，reward就如同一种特殊语言，实现了目标与算法之间的沟通，算法工作者在这里面承担了翻译的角色，翻译的好坏体现了其对任务逻辑的理解深度，决定了agent最终是否能学到期望的技能，并直接影响算法的收敛速度和最终性能。结合...

2019-12-05 21:10:14 5956 11

原创深度强化学习落地方法论（5）——状态空间篇

目录前言状态设计的四个步骤任务分析前言DRL的状态信息代表了agent所感知到的环境信息，以及因自身的action带来的变化。状态信息是agent制定决策和评估其长期收益的依据，而状态设计的好坏直接决定了DRL算法能否收敛、收敛速度以及最终性能，兹事体大，不可不察。通常在一些公共平台，如Gym，大部分domain的状态空间都是现成的，学者们在上边比的是谁的算法收敛快、性能好；然而，在实际项目中...

2019-11-27 21:21:17 7500 7

原创深度强化学习落地方法论（4）——动作空间篇

在将DRL应用于实际项目时，可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单，而是agent的控制方式往往早就定死了，留给我们发挥的空间很小。我们无法决定DOTA里允许多少种操作，也无法改变一台机器人的关节数量和各自的角度范围，Gym用户甚至从来没为这个问题操过心，action空间有几维，连续还是离散，各种domain早就定义好了，我们根据这些性质判断任务的难度，仅此而已。当然如果你...

2019-11-24 10:23:45 5275 9

原创深度强化学习落地方法论（3）——算法选择篇

目录前言强化学习——探索和利用的平衡游戏DQNDDPGA3C其他算法前言虽然每年RL方向的paper满天飞，但真正具有普遍实用价值的突破性工作实在不多，大多数还是在经典框架基础上的改进和扩展。DRL常规武器库里的存货主要还是老三样：DQN，DDPG和A3C，它们是深度学习时代最成熟、最能体现智慧结晶的三个DRL框架，你可以在GitHub上找到无数相关代码，有OpenAI，NVIDIA这些大公司...

2019-11-24 10:20:17 3066

原创深度强化学习落地方法论（2）——需求分析篇

发扬中华传统美德，丑话要说在前面。任何机器学习方法都不是包治百病的灵丹妙药，它们也有各自的“舒适圈”，有时候还相当挑剔。强化学习，无论前面带不带“深度”二字，也同样有着鲜明的优势和局限性，务必要具体问题具体分析。不管公众号吹嘘得多么厉害，我们自己要摆正心态，不是所有需求都适合用DRL做，适合用DRL做的需求也未必能超越传统方法。在我看来，算法工程师的核心能力可以总结成三点：1. 对各种算法本质及...

2019-11-18 22:19:55 1490 3

原创深度强化学习落地方法论（1）——写在前面

深度强化学习落地宝典写在前面需求分析篇算法选择篇（预告）写在前面随着这波人工智能浪潮的兴起，强化学习（Reinforcement Learning，RL）这坛陈年老酒也借势找到了深度学习这个新瓶子，重新吸引了学术界、工业界乃至吃瓜群众的注意力。对于很多人来说，AI闯入他们视野的标志性事件不是2012年AlexNet的横空出世，而是AlphaGo击败李世石引起的轩然大波。可以这样说，深度强化学习...

2019-11-17 21:41:14 1175 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除