DRL:强化学习-Q-Learning算法
文章目录强化学习Q-Learning算法1. 问题及原因2. Estimator原理与思想(1)单估计器方法(Single Estimator)(2)双估计器方法(Double Estimator)强化学习论文发表在国际顶级期刊《Science》上,2016.3,透过自我对弈数以万计盘进行练习强化,AlphaGo在一场五番棋比赛中4:1击败顶尖职业棋手李世石。2016.12,Master(AlphaGo版本)开始出现于弈城围棋网和腾讯野狐围棋网,取得60连胜的成绩,以其空前的实力轰动了围棋界。Deep
复制链接