强化学习
£•€•×
这个作者很懒,什么都没留下…
展开
-
强化学习第四章和第五章
强化学习第四章和第五章 Policy Gradient 策略梯度 一场游戏 episode(回合) 或者 trial(试验) total reward retun 回报 Trajectory 状态和行为的集合 gradient ascent 梯度下降法 Discounted Return (折扣回报) ...原创 2020-10-29 18:13:25 · 441 阅读 · 0 评论 -
强化学习第二次打卡
强化学习第二章和第三章马尔科夫example公式计算习题及解答Keywords2 Questions表格型方法1 Keywords2 Questions 本次是Datawhale的第二次打卡活动,详情见链接 关键词 关键词 马尔可夫性质 (Markov Property) 马尔可夫链 (Markov Chain) 状态转移矩阵 (State Transition Matrix) 马尔可夫奖励过程 (Markov Reward Process, MRP) 奖励函数 (rewar原创 2020-10-23 13:21:47 · 388 阅读 · 0 评论 -
强化学习第一章概述
强化学习(Reinforcement Learing ) 关键词索引 智能体 agent 环境 environment 独立同分布 independently identically distribution(iid) 延迟奖励 delayed Reward 试错 trial-and-error exploration 探索 exploration 开发 exploitation 奖励信号 reward signal 深度强化学习 Deeplearning原创 2020-10-20 17:18:12 · 688 阅读 · 0 评论 -
强化学习初入门
在网上搜索了关于强化学习的一些博客 强化学习是什么 与有监督学习、无监督学习类似的机器学习算法 有监督学习是对有标签的数据进行训练从而对未知数据做预测 而强化学习是通过不断在学习中实践,在实践中学习的计算决策过程。通过不断地与环境交互,经过短期、长期的收益进行优化决策,获取最大收益的过程。 发现强化学习是一个状态不断转移的过程,想到了动态规划。索性查了一下: 动态规划是通过组合子问题的解来解决原问题 动态规划应用于子问题重叠的情况,即不同的子问题具有公共的子子问题 动态规划算法对每个子子问题只求解一次原创 2020-10-17 23:25:16 · 303 阅读 · 0 评论