深度强化学习
文章平均质量分 78
使用pytorch,将基础算法系统整理一遍
D_JQ
这个作者很懒,什么都没留下…
展开
-
常用的神经网络函数及其选择
什么是激活函数(activation function):就是人工神经网络中的神经元上运行的函数,负责将神经元的输入映射到输出端。一个节点的激活函数定义了该节点在给定输入或者输入集合下的输出。激活函数对于神经网络模型去学习、理解复杂和非线性的函数非常重要。将非线性特性引入到网络中。下图,输入inputs 通过加权求和之后,被作用在一个函数上,这个函数就是激活函数。为什么使用激活函数。转载 2022-12-11 21:34:25 · 1494 阅读 · 0 评论 -
读深度强化学习落地指南一书总结
reward的主要作用是将任务目标具体化和数值化,实现目标和算法之间的沟通,决定了agent最终能否学习到期望的技能,并直接影响算法的收敛速度和最终性能。reward负责引导神经网络中的决策相关因素并经过提炼后用于action的生成。如果主线回报比较稀疏,此时,只有主线reward是不行的;此时需要分解子目标,分别给予奖励或者惩罚,从而引导agent趋利避害从而提高主线的概率。此时,称为credit assignment。辅助reward一般都设置较小。避免有些reward过大,从而使其他reward被掩原创 2022-12-04 00:51:21 · 423 阅读 · 0 评论 -
强化学习实验绘图-使用seaborn(完全抄别人的)
seaborn 可以认为是matplotlib的升级版本,使用seaborn绘制折线图时参数数据可以传递ndarray或者pandas.转载 2022-11-21 20:10:09 · 1399 阅读 · 0 评论 -
【Proximal Distilled Evolutionary Reinforcement Learning 的翻译】
强化学习在很多复杂环境中由于和 DNNs 结合 取得了显著的效果,与此同时,遗传算法,作为RL 的竞争算法,在 扩展到 DNNs 上 解决一些挑战性 任务的时候却 鲜有成果。和二分法想法的不同的是,在现实世界中, 进化和学习是不断相互作用的互补过程,最近提出的进化强化学习(ERL)框架已经证明了两种方法相结合对性能的共同好处。但是 ERL 没有充分 解决 遗传算法的可扩展问题。 本文中,我们发现,这个问题的根源在于dnn的简单遗传编码和传统的生物变异算子 不幸结合。当应用于这些编码时,标准算子是破坏原创 2022-06-22 12:59:50 · 230 阅读 · 0 评论