- 博客(5)
- 资源 (7)
- 收藏
- 关注
原创 强化学习篇
此系列文章介绍强化学习相关内容1.强化学习历史2.强化学习之多臂赌博机对(行为)进行学习3.强化学习之马尔科夫决策过程对(行为,状态)组进行学习4.强化学习之策略学习马尔科夫决策需要知道全部状态,对实际情况引入四种学习方法(部分内容来自于国科大高级人工智能沈华伟老师授课内容)...
2020-12-29 23:38:21 133
原创 强化学习历史
强化学习历史1911年,Thorndike提出效果律(Law of effect),从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化,动物感到不舒服的行为会被弱化1954年,马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习1957年,Bellman提出求解最优控制问题的动态规划方法,并提出了最优控制问题的随机离散版本,即著名的马尔科夫决策过程1960年,Howard提出马尔科夫决策过程的策略迭代方法1961年,明斯基在其论文“Steps toward
2020-12-29 22:55:33 1623
离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第四部分
2017-10-17
离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第一部分三
2017-10-17
离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第二部分
2017-10-17
离散数学及其应用原书第7版,(美)KENNETHH.ROSEN著 第一部分
2017-10-17
Java数据结构和算法中文第二版
2017-10-17
离散数学及其应用奇数编号练习答案(Discrete Mathematics and Its Applications 7th Edition 2011)
2017-10-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人