- 博客(2)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 Q-Learning算法学习
Q-Learning算法学习简介Q-Learning算法下,目标是达到目标状态(Goal State)并获取最高收益,一旦到达目标状态,最终收益保持不变。因此,目标状态又称之为吸收态。Q-Learning算法下的agent,不知道整体的环境,知道当前状态下可以选择哪些动作。通常,我们需要构建一个即时奖励矩阵R,用于表示从状态s到下一个状态s’的动作奖励值。由即时奖励矩阵R计算得出指导agent行动的
2017-07-28 11:54:25 24067 6
原创 Monto Carlo估计动作价值(action values)
Monto Carlo估计动作价值(action values)@(Machine Learning)名词翻译action 行动,动作action values 动作价值state values 状态价值policy 策略总体思路 总体的指导思路是:在Model未知时,估计动作价值要比估计状态价值要有用一些。而当Model是已知的,仅仅利用状态价值就足够决定策略。Model未知时,只
2017-07-22 13:08:20 914
TensorFlow for Deep Learning: From Linear Regression to Reinforcement Learning
2018-03-14
Hands-On Machine Learning with Scikit-Learn and TensorFlow -- 2017.3月第一版 + 对应代码
2018-01-28
Practical Python and OpenCV + Case Study均为第三版两本书用Python3
2017-12-11
C++ Primer第五版翻译--队列适配器
2016-09-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人