
强化学习
文章平均质量分 65
「已注销」
这个作者很懒,什么都没留下…
展开
-
【深度学习】可视化pytorch网络结构
三种方法,又各有缺点,所以拿输出的结果结合着看。原创 2022-08-31 19:54:50 · 754 阅读 · 0 评论 -
【强化学习算法】Temporal Difference learning for Model Predictive Control论文(TDMPC)总结
Model-based和model-free的本质区别是agent是否利用环境模型(或称为环境的动力学模型),例如状态转移函数PPP和奖励函数RRR。在通常情况下,agent并不知道环境的奖励函数RRR和状态转移函数p(s′∣s,a)p(s'|s,a)p(s′∣s,a),所以需要通过和环境交互,不断试错(Trials and Errors),观察环境相关信息并利用反馈的奖励信号来不断学习。原创 2022-08-29 10:11:39 · 3267 阅读 · 1 评论