- 博客(2)
- 资源 (44)
- 收藏
- 关注
原创 Deep Q Learning 笔记
alphago 基础之DQN Q learning: 1 主要用在解是离散时 2 主要是利用值函数,即,直接由值函数来推策略 3 其核心在于bellman方程和代价函数 bellman的核心在于使用reward的时候要考虑到将来的情况,而不是只考虑现在的情况,否则的话,只考虑到当前的reward就和人只顾当下,不考虑未来,是走不长远的,在游戏中就意味着,你很快将死掉,不论是Qlearnin
2017-11-29 10:46:00 1081 1
原创 Policy Gradient笔记
policy_gradient,主要包括两个网络: 价值网络和策略网络: 价值网络,主要用于评估基于当前状态下能够得到的最大reward(或者叫胜率),该最大reward包括该状态下的reward,以及后面几步的reward,只是后面几步的reward的权重系数更小 策略网络:主要用于评估在当前状态下采取哪个策略使得agent获取的reward最大,要利用训练数据的实际reward和价值网络产
2017-11-28 16:08:26 1384
Multiple_View_Geometry_in_Computer_Vision__2nd_Edition
2016-05-31
A Practical Introduction to Computer Vision with OpenCV
2016-05-31
speex降噪文献
2016-05-31
基于OpenCV的计算机视觉技术实现
2016-05-31
Algorithms_for_Image_Processing_and_Computer_Vision
2016-05-31
OpenCV 2 Computer Vision Application Programming Cookbook
2016-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人