机器学习
ThousandsOfWind
这个作者很懒,什么都没留下…
展开
-
强化学习策略梯度梳理-SOTA下(A2C,A3C 代码)
强化学习策略梯度梳理-SOTA上策略梯度SOTAA3C (Asynchronous Advantage Actor critic)QAC -> A3C策略梯度SOTA这个部分主要参考周博磊老师的第九节的顺序主要参考课程 Intro to Reinforcement Learning,Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.git参考到了pytorch a3cA3C (Asynchronous Adva原创 2020-07-27 20:23:48 · 808 阅读 · 0 评论 -
强化学习策略梯度梳理3-SOTA上(附PPO2代码)
强化学习策略梯度梳理-SOTA一级目录策略梯度方法总结进阶方向1Trust region policy optimization(TRPO)一级目录这个部分主要参考周博磊老师的第六节的顺序主要参考课程 Intro to Reinforcement Learning,Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.git策略梯度方法首先策略的优化目标是J(θ)=Eτ∼πθ[R(τ)]J(\theta)=\math原创 2020-07-09 14:46:27 · 692 阅读 · 1 评论 -
强化学习策略梯度梳理2 - AC(附代码)
策略梯度梳理 ACActor-CriticActor-Critic Policy Gradient (QAC)QAC with shared networkone-step AC主要参考文献 Reinforcement Learning: An introduction,Sutton主要参考课程 Intro to Reinforcement Learning,Bolei Zhou相关文中代码 https://github.com/ThousandOfWind/RL-basic-alg.gitAct原创 2020-07-07 13:26:16 · 1019 阅读 · 0 评论 -
注意力机制:认知模型与计算机应用
注意力机制:认知模型与计算机应用“注意力机制”在风靡计算机神经网络设计之前,首先是一种被广泛接受的人类认知方法。本调研文稿将首先从人类认知出发,讨论几种经典的人类注意力模型,和人类脑的研究的进展;然后我们将讨论计算机领域对“注意力”概念的借用与实现,从NLP,CV,RL三大领域说明目前计算机模拟和应用attention的方法。原创 2020-03-20 10:25:42 · 1937 阅读 · 0 评论