强化学习
土豆崽
这个作者很懒,什么都没留下…
展开
-
强化学习入门第一讲笔记
原来的值函数就是一个表格型函数,现在状态空间是高维的,不能再用表格表示,用一个函数来逼近值函数,比如用线性、或者非线性,当函数的类型确定了之后,确定这个逼近函数的过层 其实就是确定参数的过程, 对于三种表格型值函数更新方法都是统一格式 (目标值函数-当前值函数)*学习率=更新后的值函数 立即回报是状态做了动作之后得到的值? 比如s1状态做退出的动作,回报是0, 那决策π其实是当前状态执行这个动...原创 2019-06-24 10:37:15 · 251 阅读 · 0 评论 -
强化学习入门 第三讲 蒙特卡罗方法
转载自 知乎专栏 天津包子馅儿的知乎 上一节课我们讲了已知模型时,利用动态规划的方法求解马尔科夫决策问题。从这节课开始,我们讲无模型的强化学习算法。 图3.1 强化学习方法分类 解决无模型的马尔科夫决策问题是强化学习算法的精髓。如图3.1所示,无模型的强化学习算法主要包括蒙特...转载 2019-06-24 17:37:34 · 237 阅读 · 0 评论