前言在机器学习和深度学习坑里呆了有一些时日了,在阿里实习过程中,也感觉到了工业界和学术界的一些迥异,比如强化学习在工业界用的非常广泛,而自己之前没有怎么接触过强化学习的一些知识,所以感觉还是要好好的补...
引言 这几个月一直在忙找工作和毕业论文的事情,博客搁置了一段时间,现在稍微有点空闲时间,又啃起了强化学习的东西,今天主要介绍的是强化学习的免模型学习free-model learning中的最基础的...
引言 前面一篇文章中说到了MC prediction,主要介绍的是如何利用采样轨迹的方法计算Value函数,但是在强化学习中,我们主要想学习的是Q函数,也就是计算出每个state对应的action以...
引言 前面一篇讲的是蒙特卡洛的强化学习方法,蒙特卡罗强化学习算法通过考虑采样轨迹,克服了模型未知给策略估计造成的困难,不过蒙特卡罗方法有一个缺点,就是每次需要采样完一个轨迹之后才能更新策略。蒙特卡洛...
引言 前面说到了强化学习中的蒙特卡洛方法(MC)以及时序差分(TD)的方法,这些方法针对的基本是离散的数据,而一些连续的状态则很难表示,对于这种情况,通常在强化学习里有2中方法,一种是针对value...