2017年07月_贰锤

12月 11月 10月 09月 08月 07月 06月 05月

原创深度学习batchsize，iteration，epoch的关系

当时看代码接触到这三个量，简直懵逼。自己理了理思路总结如下。epoch：一个epoch表示所有训练样本运算学习一遍。iteration/step：表示每运行一个iteration/step，更新一次参数权重，即进行一次学习，每一次更新参数需要batch size个样本进行运算学习，根据运算结果调整更新一次参数。batch size：一次参数更新运算所需的样本数量，深度学习每一次参数更新并不是一个样本

2017-07-20 17:21:57 9046 2

原创 python if name=='main'教程及原理

一句经典介绍if name==’main‘功能的描述为：“Make a script both importable and executable” 表示可以让脚本模块不仅能够被其他模块调用，还能在当前文件中运行模块。如果直接作为脚本运行，则运行if name==’main‘后的代码，如果被其他模块调用，则不运行if name==’main‘后的代码。这个功能可以提供一个很好的代码调试方法，我们可

2017-07-14 10:20:57 330

原创【强化学习】Deterministic Policy Gradient跟Stochastic Policy Gradient区别

Deterministic Policy Gradient（DPG） Stochastic Policy Gradient（SPG） DPG是SPG的概率分布方差趋近于0的极限状态。 policy gradient 的思想是，沿着目标函数变大的方向调整policy的参数。SPG policy是一个从state到action概率分布的映射。，因此performance objective定义

2017-07-13 16:13:42 3420

原创强化学习Sarsa，Q-learning的收敛性最优性区别（on-policy跟off-policy的区别）

on-policy：生成样本的policy（value function）跟网络更新参数时使用的policy（value function）相同。典型为SARAS算法，基于当前的policy直接执行一次动作选择，然后用这个样本更新当前的policy，因此生成样本的policy和学习时的policy相同，算法为on-policy算法。该方法会遭遇探索-利用的矛盾，光利用目前已知的最优选择，可能学不到最

2017-07-10 21:46:12 14388 1

原创【强化学习】RL各种算法流程伪代码

policy iteration value iteration 注：policy iteration使用bellman方程来更新value，最后收敛的value 即是当前policy下的value值（所以叫做对policy进行评估），目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value，最后收敛

2017-07-07 16:00:01 6718

原创【强化学习】各种算法分析及Eligibility Trace教程

Monte Carlo算法需要运行完整的episode，利用所有观察到的真是的reward（奖励值）来更新算法。Temporal Difference（TD）算法仅当前时刻采样的reward（奖励值）进行value function的估计。一个折中的方法就是利用n步的reward（奖励进行估计）。 TD(λ)算法：定义0<λ<1，使第k步的奖励乘以系数。实际中使用的TD(λ)算法称为

2017-07-07 11:45:40 5345

原创【强化学习】Actor-Critic公式推导分析

注：actor以及critic可以分别看作是policy以及value function的同义词。 Actor-Critic算法是目前一个非常流行常用的强化学习算法，广泛应用于机器人，能源，经济等领域。通过low-variance（低方差）以及policy gradient（策略梯度）在线搜索最优策略，可以处理连续的state（状态）以及连续的action（行为）。强化学习的方法可以分为以下三

2017-07-06 21:09:11 17948 1