![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
£•€•×
这个作者很懒,什么都没留下…
展开
-
强化学习第四章和第五章
强化学习第四章和第五章Policy Gradient策略梯度一场游戏episode(回合) 或者 trial(试验)total rewardretun 回报Trajectory状态和行为的集合gradient ascent梯度下降法Discounted Return(折扣回报)...原创 2020-10-29 18:13:25 · 471 阅读 · 0 评论 -
强化学习第二次打卡
强化学习第二章和第三章马尔科夫example公式计算习题及解答Keywords2 Questions表格型方法1 Keywords2 Questions本次是Datawhale的第二次打卡活动,详情见链接关键词关键词马尔可夫性质(Markov Property)马尔可夫链(Markov Chain)状态转移矩阵(State Transition Matrix)马尔可夫奖励过程(Markov Reward Process, MRP)奖励函数(rewar原创 2020-10-23 13:21:47 · 411 阅读 · 0 评论 -
强化学习第一章概述
强化学习(Reinforcement Learing )关键词索引智能体agent环境environment独立同分布independently identically distribution(iid)延迟奖励delayed Reward试错trial-and-error exploration探索exploration开发exploitation奖励信号reward signal深度强化学习Deeplearning原创 2020-10-20 17:18:12 · 711 阅读 · 0 评论 -
强化学习初入门
在网上搜索了关于强化学习的一些博客强化学习是什么 与有监督学习、无监督学习类似的机器学习算法有监督学习是对有标签的数据进行训练从而对未知数据做预测而强化学习是通过不断在学习中实践,在实践中学习的计算决策过程。通过不断地与环境交互,经过短期、长期的收益进行优化决策,获取最大收益的过程。发现强化学习是一个状态不断转移的过程,想到了动态规划。索性查了一下:动态规划是通过组合子问题的解来解决原问题动态规划应用于子问题重叠的情况,即不同的子问题具有公共的子子问题动态规划算法对每个子子问题只求解一次原创 2020-10-17 23:25:16 · 312 阅读 · 0 评论