强化学习
文章平均质量分 65
海晨威
Growth is a song
展开
-
为什么时序差分是动态规划和蒙特卡罗的结合
动态规划的优势:在已知状态转换概率和回报函数的情况下,不需要与环境的交互,直接通过策略迭代或值迭代方法得到最优策略。动态规划的劣势:但实际情况下,环境的状态转换概率通常是未知的,因此该方法并不实际可行。动态规划分析:虽然动态规划并不实际可行,但重要的是它的思想:用空间换时间,存储每个状态的值函数(也就是Q表),并利用后继状态的值函数估计当前值函数,这样就实现了单步更新,提升了更新的效率,也...原创 2018-06-11 18:43:31 · 2711 阅读 · 0 评论 -
一个简单的例子让你理解强化学习是什么,和有监督学习的区别又是什么
一个简单的例子: 对于一个正在学走路的小屁孩,他一不小心摔倒了,如果他一摔倒就哭,那妈妈就会打他小屁屁,如果他摔倒了会自己爬起来,那妈妈很高兴,就奖励他喝一口奶。这样小屁孩就学会了摔倒了要自己爬起来,然后就可以喝很多很多奶。其实,强化学习就是通过不断与环境交互,利用环境给出的奖惩来不断的改进策略(即在什么状态下采取什么动作),以求获得最大的累积奖惩。在上述问题中,奖就是喝奶,惩就是打屁屁...原创 2018-06-11 20:32:16 · 13296 阅读 · 3 评论 -
强化学习与马尔科夫的关系
马尔科夫性:即无后效性,下一个状态只和当前状态有关而与之前的状态无关,公式描述:P[St+1|St]=P[St+1|S1,...,St]P[St+1|St]=P[St+1|S1,...,St] P[S_{t+1}|S_{t}]=P[S_{t+1}|S_{1}, ... , S_{t}] 强化学习中的状态也服从马尔科夫性,因此才能在当前状态下执行动作并转移到下一个状态,而不需要考虑之前的状态...原创 2018-06-20 21:09:33 · 5997 阅读 · 1 评论 -
强化学习如何入门
强化学习资源汇总与建议强化学习资源汇总与建议参考书目知乎专栏博客专栏视频教程实践代码学习建议参考书目《Reinforcement Learning : An introduction》 提到强化学习,就不得不提这本书了,这是强化学习的奠基人Sutton历时多年,几经修改撰写的强化学习领域最经典的书,如果能够将该书从头到尾啃下,基本能够对强化学习...原创 2018-06-07 21:00:01 · 7778 阅读 · 0 评论 -
深度强化学习剖析
深度强化学习剖析深度强化学习是深度学习与强化学习的结合,具体来说是结合了深度学习的结构和强化学习的思想:也可以说是将深度学习的感知能力与强化学习的决策能力相结合,通过端对端的学习方式实现从原始状态输入到最终的动作输出。如果类比人类的话,可以大致的把深度学习看作眼睛,强化学习看作大脑: 但深度强化学习的侧重点更多的是在强化学习上,解决的仍然是决策问题,只不过是借助神经网络强大的表征...原创 2018-08-12 17:05:58 · 1075 阅读 · 0 评论 -
UCB公式的理解
UCB公式的理解在解决探索与利用平衡问题时,UCB1 策略是一个很有效的方法,而探索与利用平衡问题中最经典的一个问题就是多臂赌博机问题(Multi-Armed Bandit)。图来自[1]问题假设:按下摇臂后的回报取值为 1 或 0,每个摇臂获得回报的概率服从不同的分布,但事先并不知道问题目标:按照某种策略来按压摇臂以获得最大的累计回报(咦,这不就是强化学习的目标嘛)在这个问题中,探索...原创 2018-10-25 19:17:07 · 21301 阅读 · 6 评论 -
强化学习适合解决什么样的问题
问:强化学习解决的是什么样的问题?答:“序列决策问题。”面试官又问:“多臂老虎机只是一步,没有序列呀?”…上述问题和回答参考自:再励学习面试真题无论是在面试中,还是在实际的业务中,强化学习能够解决的问题、适合解决的问题都需要理解的非常深刻。在上面提及的问题中,多臂老虎机其实可以看作一种特殊的强化学习问题:序列长度一直为1的强化学习。它在强化学习关键的三要素(状态,动作,奖惩)中,没有状...原创 2018-11-24 21:23:53 · 6828 阅读 · 0 评论