- 博客(1)
- 收藏
- 关注
原创 强化学习初步总结
强化学习基础1. 定义:智能体(agent) 环境(environment) 状态s 动作a 策略 π(a|s),确定性策略是从状态空间到动作空间的映射函数 π : S → A。随机性策略 表示在给定环境状态时,智能体选择某个动作的概率分布。 状态转移概率 p(s′ |s, a) 即时奖励 r(s, a, s′ ) 2. 马尔可夫决策过程马尔可夫过程 (Markov P...
2018-10-23 19:31:37 732
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人