强化学习
文章平均质量分 92
小鹏仔0514
qq:
展开
-
自由能(Free Energy)(一)
前言假设一个场景,你在球场投篮,那么你是如何完成这个投篮动作呢?你的大脑会先根据抛物线公式计算一下角度高度等,甚至考虑微弱的风向吗?显然是不可能的,我们的大脑可能就是预估大概这个力度、角度,篮球是否会中,并且在篮球抛向球筐的过程中,我们的大脑还会不断的修正我们一开始预测的结果。那么我们大脑是如何根据观察到的东西来进行预测以及动作呢?我们知道,我们大脑其实就仅仅只有各种感官数据的输入,并没有关于环境真实的状态。假设 Xhypothese∈RnX_{hypothese} \in R^nXhypothese原创 2022-05-17 14:34:04 · 1475 阅读 · 0 评论 -
强化学习-PolicyGradient相关推导和记录
关于强化学习策略梯度的一些简单推导原创 2022-04-15 15:18:52 · 883 阅读 · 0 评论