![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
FireKnight_
www.fireknight.tech
展开
-
强化学习篇
此系列文章介绍强化学习相关内容 1.强化学习历史 2.强化学习之多臂赌博机 对(行为)进行学习 3.强化学习之马尔科夫决策过程 对(行为,状态)组进行学习 4.强化学习之策略学习 马尔科夫决策需要知道全部状态,对实际情况引入四种学习方法 (部分内容来自于国科大高级人工智能沈华伟老师授课内容) ...原创 2020-12-29 23:38:21 · 117 阅读 · 0 评论 -
强化学习之策略学习
原创 2020-12-29 23:30:29 · 253 阅读 · 0 评论 -
强化学习之马尔科夫决策过程
原创 2020-12-29 23:28:54 · 154 阅读 · 0 评论 -
强化学习之多臂赌博机
原创 2020-12-29 23:27:58 · 174 阅读 · 0 评论 -
强化学习历史
强化学习历史 1911年,Thorndike提出效果律(Law of effect),从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化,动物感到不舒服的行为会被弱化 1954年,马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习 1957年,Bellman提出求解最优控制问题的动态规划方法,并提出了最优控制问题的随机离散版本,即著名的马尔科夫决策过程 1960年,Howard提出马尔科夫决策过程的策略迭代方法 1961年,明斯基在其论文“Steps toward原创 2020-12-29 22:55:33 · 1598 阅读 · 0 评论