![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
full_adder
这个作者很懒,什么都没留下…
展开
-
强化学习笔记系列二
强化学习入门-2⊳\rhd⊳ 优化问题⊳\rhd⊳ Prediction 与Control⊳\rhd⊳ 动态规划(DP)策略迭代价值迭代⊳\rhd⊳ 蒙特卡洛策略(MC)first-visitevery-visit⊳\rhd⊳ 时序差分TD(0)Q-Learening2020.12.8⊳\rhd⊳ 优化问题上回书说到,我们需要解决以下优化问题:Vπ(s)=∑aπ(a∣s)(R(s,a)+γ∑s′(P(s′∣a,s)Vπ(s′)))V_{ \pi }(s)=\sum_a \pi(a|s)(原创 2020-12-08 23:51:56 · 181 阅读 · 0 评论 -
强化学习笔记系列一
强化学习入门-1背景马尔可夫决策模型(MDP)价值迭代与策略迭代价值函数Bellman期望方程参考2020.12.7背景人类学习的基本动力是菜——沃.兹基硕德强化学习是近年较当红的炸子鸡。所谓 强化学习 ,表示的是一种实体与环境的交互,是寻找一个得到最优态势策略的问题。白话言,如何在每个命运的节点,都能做出最正确的选择?一个例子,作为命定的主角,上小学的你兜里有五块钱,你路过小卖铺,非常想吃可爱多冰淇淋,但你一个月只有这五块零花钱,世界线在此分开。短期收益:你一咬牙一跺脚,买了!你收获了吃原创 2020-12-07 23:06:06 · 233 阅读 · 0 评论