强化学习
FireKnight_
www.fireknight.tech
展开
-
强化学习篇
此系列文章介绍强化学习相关内容1.强化学习历史2.强化学习之多臂赌博机对(行为)进行学习3.强化学习之马尔科夫决策过程对(行为,状态)组进行学习4.强化学习之策略学习马尔科夫决策需要知道全部状态,对实际情况引入四种学习方法(部分内容来自于国科大高级人工智能沈华伟老师授课内容)...原创 2020-12-29 23:38:21 · 133 阅读 · 0 评论 -
强化学习之策略学习
原创 2020-12-29 23:30:29 · 269 阅读 · 0 评论 -
强化学习之马尔科夫决策过程
原创 2020-12-29 23:28:54 · 167 阅读 · 0 评论 -
强化学习之多臂赌博机
原创 2020-12-29 23:27:58 · 192 阅读 · 0 评论 -
强化学习历史
强化学习历史1911年,Thorndike提出效果律(Law of effect),从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化,动物感到不舒服的行为会被弱化1954年,马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习1957年,Bellman提出求解最优控制问题的动态规划方法,并提出了最优控制问题的随机离散版本,即著名的马尔科夫决策过程1960年,Howard提出马尔科夫决策过程的策略迭代方法1961年,明斯基在其论文“Steps toward原创 2020-12-29 22:55:33 · 1621 阅读 · 0 评论