深度强化学习落地指南
文章平均质量分 66
keep wyd
这个作者很懒,什么都没留下…
展开
-
深度强化学习落地指南-第四章
【代码】深度强化学习落地指南-第四章。原创 2023-11-16 17:54:54 · 225 阅读 · 1 评论 -
深度强化学习落地指南-第三章-状态空间设计
ddimD安全距离)ddim。原创 2023-11-16 11:16:48 · 293 阅读 · 2 评论 -
深度强化学习落地指南学习笔记-第二章
第二章 动作空间设计在编码连读动作空间时,大多采用多维向量式动作编码 ,每个编码位置度代表了一个独立的控制参数。每个参数事先根据实际情况定义合理的取值范围利用线性变换将他们统一缩放至标准区间[-1,1]内,而通过策略网络的输出动作可以通过逆向变换转换为一组真是的控制参数连续动作可以按照适当力度进行离散化,同时离散动作也可以以类似于连续动作的方式进行表征2.3 动作空间的高效性化整为零:用精度来换效率就是把一个连续的动作换成是一个可以接受的离散的动作的集合,寻求效率和精度之间的最好的原创 2023-11-16 11:00:56 · 125 阅读 · 1 评论