- 博客(7)
- 资源 (8)
- 收藏
- 关注
原创 深度学习batchsize,iteration,epoch的关系
当时看代码接触到这三个量,简直懵逼。自己理了理思路总结如下。epoch:一个epoch表示所有训练样本运算学习一遍。iteration/step:表示每运行一个iteration/step,更新一次参数权重,即进行一次学习,每一次更新参数需要batch size个样本进行运算学习,根据运算结果调整更新一次参数。batch size:一次参数更新运算所需的样本数量,深度学习每一次参数更新并不是一个样本
2017-07-20 17:21:57 9046 2
原创 python if __name__=='__main__'教程及原理
一句经典介绍if name==’main‘功能的描述为:“Make a script both importable and executable” 表示可以让脚本模块不仅能够被其他模块调用,还能在当前文件中运行模块。如果直接作为脚本运行,则运行if name==’main‘后的代码,如果被其他模块调用,则不运行if name==’main‘后的代码。这个功能可以提供一个很好的代码调试方法,我们可
2017-07-14 10:20:57 330
原创 【强化学习】Deterministic Policy Gradient跟Stochastic Policy Gradient区别
Deterministic Policy Gradient(DPG) Stochastic Policy Gradient(SPG) DPG是SPG的概率分布方差趋近于0的极限状态。 policy gradient 的思想是,沿着目标函数变大的方向调整policy的参数。SPG policy是一个从state到action概率分布的映射。,因此performance objective定义
2017-07-13 16:13:42 3420
原创 强化学习Sarsa,Q-learning的收敛性最优性区别(on-policy跟off-policy的区别)
on-policy:生成样本的policy(value function)跟网络更新参数时使用的policy(value function)相同。典型为SARAS算法,基于当前的policy直接执行一次动作选择,然后用这个样本更新当前的policy,因此生成样本的policy和学习时的policy相同,算法为on-policy算法。该方法会遭遇探索-利用的矛盾,光利用目前已知的最优选择,可能学不到最
2017-07-10 21:46:12 14388 1
原创 【强化学习】RL各种算法流程伪代码
policy iteration value iteration 注:policy iteration使用bellman方程来更新value,最后收敛的value 即 是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value,最后收敛
2017-07-07 16:00:01 6718
原创 【强化学习】各种算法分析及Eligibility Trace教程
Monte Carlo算法需要运行完整的episode,利用所有观察到的真是的reward(奖励值)来更新算法。Temporal Difference(TD)算法仅当前时刻采样的reward(奖励值)进行value function的估计。一个折中的方法就是利用n步的reward(奖励进行估计)。 TD(λ)算法:定义0<λ<1,使第k步的奖励乘以系数。 实际中使用的TD(λ)算法称为
2017-07-07 11:45:40 5345
原创 【强化学习】Actor-Critic公式推导分析
注:actor以及critic可以分别看作是policy以及value function的同义词。 Actor-Critic算法是目前一个非常流行常用的强化学习算法,广泛应用于机器人,能源,经济等领域。通过low-variance(低方差)以及policy gradient(策略梯度)在线搜索最优策略,可以处理连续的state(状态)以及连续的action(行为)。 强化学习的方法可以分为以下三
2017-07-06 21:09:11 17948 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人