【强化学习】Reinforcement Learning
文章平均质量分 56
强化学习
Mr.zwX
2019年进入电子科技大学接触计算机(机器学习/深度学习(CV、NLP、GNN)、时空数据挖掘、一点点前后端开发),2022年在电子科技大学实验室科研,2023年在复旦大学NLP组实习,2023年9月至今,在北京大学人工智能研究院科研(模型加速/压缩、隐私计算)...保持努力,anyway,这个平台是我记录一些乱七八糟计算机笔记的地方,供(记性不好的)自己复习,同时也分享给大家。如需联系:请发邮件至wenxuan225@qq.com
展开
-
【Reinforcement Learning】DQN:Deep Q Network
一、传统强化学习算法的瓶颈 传统的Q-Learning算法,会用一个Q表存储 每个状态state和这个state种的每个行为action所对应的Q值。而当今问题太复杂,状态可以非常多,比如下围棋,如果只用表格存储,那么会占用大量内存,并且搜索非常耗时。 二、DQN(Deep Q Network) 有如下两种方式: 将状态和动作作为神经网络的输入,通过计算,得到对应的Q值。 将状态作为神经网络的输入,通过计算,得到所有的动作对应的Q值。 现在以第二种为例,讲解DQN的原理。 三、Experienc原创 2022-02-23 23:36:10 · 620 阅读 · 0 评论 -
【Reinforcement Learning】Sarsa算法
一、Sarsa和Q-Learning的对比 Sarsa和Q-Learning很相似,我们先来对比一下这两个算法。下面是Q-Learning算法的过程: 当来到s2状态时,会估计一下选择a1和a2哪种方式能带来最大奖励。而真正做决定时,并不一定选择奖励最大的一种方式。而Sarsa则是实践派,这个算法说到做到,s2估计的动作也就是接下来要实际做的动作,如下就是Sarsa的过程: 从下面的算法描述,Sarsa相比于Q-Learning来说,少了max的计算。 其中,Q-Learning说到不一定做到,所以是原创 2022-02-23 23:18:11 · 643 阅读 · 0 评论 -
【Reinforcement Learning】Q-Learning算法
一、什么是Q-Learning? 先举个简单的例子,假设我们正在写作业,此时可以选择继续写作业,也可以选择看电视。如果选择写作业,我们会得到奖赏,而选择看电视,就会挨打,这是不可磨灭的惨痛记忆。 Q-Learning就是这样的一个决策过程。 假设行为准则已经学习好了,那么每一次决策会得到如下的Q表,总是会选择值更大的行为作为下一步的动作。 如何更新Q表呢? 下面是算法伪代码: 下面是对衰减值γ\gammaγ理解,首先将Q(S1)拆分为与后续行为相关的式子,然后考虑极端值,如果γ=1\gamma=1γ原创 2022-02-21 16:27:47 · 712 阅读 · 0 评论 -
【Reinforcement Learning】什么是强化学习以及算法分类
一、什么是强化学习 强化学习是一类算法,让计算机从什么都不懂,通过不断尝试,从错误中学习,找到规律,从而到达目标的过程。围棋机器人AlphaGo就是自己不断尝试,更新自己的行为准则。 计算机需要一位虚拟的老师,他要做的事情就是给行为打分,计算机只需要记住高分和低分对应的行为,下一次只需要执行高分行为就能得到高分(分数导向性)。类似于监督学习中学习正确标签,不同的是,强化学习最开始没有准备好的数据和标签,是在不断的尝试中得到数据和对应的标签(奖励值)。 强化学习是和监督学习、无监督学习并列的第三种机器学习方法原创 2022-02-21 01:47:11 · 4641 阅读 · 0 评论