强化学习
文章平均质量分 90
强化学习算法总结
xhsun1997
这个作者很懒,什么都没留下…
展开
-
总结面试中的一些问题(强化学习相关)
DQN简述DQN的原理DQN就是利用神经网络近似最优动作价值函数,DQN存在的问题原创 2021-03-16 20:47:48 · 577 阅读 · 1 评论 -
简单总结机器阅读理解模型中输出答案层融入强化学习的思想
利用预测答案与标签的f1分数作为奖励相关论文Reinforced Mnemonic Reader for Machine Reading ComprehensionDCN+: MIXED OBJECTIVE AND DEEP RESIDUALCOATTENTION FOR QUESTION ANSWERING在抽取式阅读理解任务当中,模型最终的预测是答案的起始位置和终止位置。损失函数是预测的起始位置和标签的起始位置的交叉熵+预测的终止位置和标签的终止位置的交叉熵这就有一个问题:过于严格因原创 2021-01-27 20:45:14 · 488 阅读 · 3 评论 -
seq2seq中的曝光偏差(exposure bias)现象以及利用REINFORCE算法训练seq2seq模型
mismatch between train and testexposure bias在训练阶段,我们采用的是teacher forcing (教师指导)方式,也就是在decoder端的当前时间步的输入是上一个时间步的真实标签,而不是模型在上一个时间步的预测值然而测试阶段,当前时间步的输入是模型上一时间步的预测值,此时没有教师指导。所谓exposure bias(曝光偏差),就是因为模型在训练阶段从来没有看过自己的输出,也就是自己的输出从来没有曝光出来,然而测试阶段却始终看到的是自己的输出.评估原创 2021-01-10 14:45:27 · 1449 阅读 · 0 评论 -
推导policy gradient算法以及为什么添加baseline可以减小方差且保持策略梯度不变
策略网络策略函数(policy function)是行为空间上的概率密度函数,记为π(a∣s)\pi(a|s)π(a∣s)。利用策略函数可以控制agent在状态s下做出哪种行为a。当利用神经网络近似策略函数的时候,也被称为策略网络(policy network),记为πθ(a∣s)\pi_\theta(a|s)πθ(a∣s),其中θ\thetaθ代表神经网络(策略网络)的参数策略网络的输入是状态,输出是行为,策略网络可以被看作是agent。动作价值函数在状态sts_tst下做出行为ata_t原创 2021-01-03 21:14:45 · 1271 阅读 · 3 评论 -
DQN实战CartPole
这篇博文要讲解的是利用DQN来做CartPole任务回报的定义:我们知道,给定一个状态sss,agent根据策略π(a∣s)\pi(a|s)π(a∣s)做出行为aaa,得到的奖励是rrr,然后环境根据状态转移概率P(s′∣s)P(s'|s)P(s′∣s)转移到新的状态s′s's′.强化学习中更多时候关注的是给定某一个状态StS_tSt,它的累计奖励,也叫“回报”或者“收获”,用英文return表示。定义给定状态StS_tSt下的回报:Gt=Rt+γRt+1+γ2Rt+2+⋯G_t=R_t+原创 2020-12-27 11:08:26 · 1063 阅读 · 0 评论