![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 76
从零开始学习强化学习
王三省的读研日记
从零学习深度学习+计算机视觉
展开
-
强化学习基础07——deep Q-network(DQN)
其实就是用个神经网络近似Q*函数,游戏中的agent的目标是打赢游戏。关于Q*函数请参考强化学习基础概念03——价值函数_王三省的读研日记的博客-CSDN博客中的问题4(optimal action value function最优动作价值函数Q*)如果用强化学习的语言来说,目标就是在游戏结束的时候,获得的奖励总和越大越好。既然目标已经定下来了,agent就要努力实现目标。假设Q*函数是知道的,那么agent该怎么做决策呢?什么才是最优的动作呢?Q*函数可以给所有的动作打分,每个动作a都有个原创 2022-01-30 21:09:34 · 8180 阅读 · 0 评论 -
强化学习基础04——让强化学习自动游戏的原理理解
目录如何让强化学习自动训练超级玛丽?一种办法是学习一个policy函数π另一种办法是学习optimal action value function,最优动作价值函数Q*。概括一下继续拿超级玛丽举例子如何让强化学习自动训练超级玛丽?假设我们训练AI玩玩超级玛丽游戏。我们的目标是操作Mario多吃金币,避开敌人往前走,打赢每一关游戏。我们想写个程序让AI来控制agent,我们该怎么做呢?一种办法是学习一个policy函数π在强化学习里面叫做policy .原创 2022-01-28 20:24:06 · 1501 阅读 · 0 评论 -
强化学习基础06——小结
目录1.术语总结2.强化学习的目的3.强化学习具体是要学什么?1.术语总结agent就是会做动作这样一个东西,比如超级玛丽中的Mario就是agent。agent可以跟环境Environment交互,超级玛丽中的环境就是游戏本身,Agent做出动作action,环境就会更新状态State,并且给出一个奖励reward。可以认为State就是当前屏幕上显示的画面,游戏玩家会根据这个画面进行操作,如果状态、动作、奖励等变量被观测到,就用小写字母表示,如果没观测到他们就是.原创 2022-01-28 20:24:19 · 1926 阅读 · 0 评论 -
强化学习基础05——gym
OpenAI gymOpenAI gym是强化学习最常用的标准库,如果研究强化学习,肯定会用到gym。gym有几大类控制问题,第一种是经典控制问题,比如cart pole和pendulum。Cart pole要求给小车一个左右的力,移动小车,让他们的杆子恰好能竖起来,pendulum要求给钟摆一个力,让钟摆也恰好能竖起来。第二种是你最常见的Atari games,小时候在小霸王游戏机上玩的。pong里面的agent是这个乒乓球拍,你让球拍上下运动目标是接住对手的球,并且让对手..原创 2022-01-28 20:24:13 · 5299 阅读 · 0 评论 -
强化学习基础概念03——价值函数
目录value function 价值函数action value function,动作价值函数Qπ。问题一:问题二:问题三:问题四:(optimal action value function最优动作价值函数Q*)问题五:Statevaluefunction状态价值函数,Vπ。问题六:问题七:value function 价值函数上文定义了discounted return折扣回报。未来的奖励要打个折扣,越久远的未来折扣越大,权重越低。其中Ut是...原创 2022-01-28 20:24:00 · 7427 阅读 · 0 评论 -
强化学习基础概念02——基本术语一
目录术语State 状态 :Action 动作: Agent 代理:Policy策略:Reward奖励:Return折扣回报:returnUt的随机性术语State 状态 :当前所处于的状态。Action 动作: 上下左右。Agent 代理:汽车 ,机器人 等Policy策略:π 根据State观测出的状态做出policy决策,控制agent运动。Policy策略最好是概率密度函数。取值需要随机,为了防止别...原创 2022-01-28 20:23:55 · 1618 阅读 · 0 评论 -
强化学习基础概念01——概率论知识
概率论随机变量是一个未知的变量,结果取决于随机事件的结果。X表示随机值 x表示观测值概率密度函数把所有取值都算上,概率求和等于1期望:连续离散随机抽样:...原创 2022-01-28 20:23:37 · 470 阅读 · 0 评论