强化学习历史

强化学习历史

1911年,Thorndike提出效果律(Law of effect),从心理学的角度探讨了强化思想:动物感到舒服的行为会被强化,动物感到不舒服的行为会被弱化

1954年,马文·明斯基(Marvin Minsky)在其博士论文中实现了计算上的试错学习

1957年,Bellman提出求解最优控制问题的动态规划方法,并提出了最优控制问题的随机离散版本,即著名的马尔科夫决策过程

1960年,Howard提出马尔科夫决策过程的策略迭代方法

1961年,明斯基在其论文“Steps toward artificial intelligence”中首次使用“Reinforcement learning"一词

*1969年,明斯基因在人工智能领域的贡献获得图灵奖

1989年,Watkins提出了Q-learning,将动态规划、时序差分、蒙特卡洛模拟三条线结合在了一起

1992年,Tesauro将强化学习成功应用到西洋双陆棋
....

2015年,强化学习和深度学习结合:AlphaGo

2017年,AlphaGo Zero
... ..
 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值