- 博客(2)
- 收藏
- 关注
转载 [转载]强化学习详解与代码实现
转自link link 总结:强化学习的基本原理和其相应的方法,包括马尔可夫决策过程(MDP)(状态转移概率),贝尔曼方程(考虑现在和未来的reward联合)和Q learning(Q table 生成方法,巡遍当前状态所对应的动作的状态动作价值函数Q函数) 原理: 2.1 强化学习 定义:通过交互的目标导向学习方法,旨在找到连续时间序列的最优策略。 核心点:尝试 主要因素:智能体(Agent),...
2019-09-25 12:35:08
1196
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人