自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (8)
  • 收藏
  • 关注

原创 深度学习batchsize,iteration,epoch的关系

当时看代码接触到这三个量,简直懵逼。自己理了理思路总结如下。epoch:一个epoch表示所有训练样本运算学习一遍。iteration/step:表示每运行一个iteration/step,更新一次参数权重,即进行一次学习,每一次更新参数需要batch size个样本进行运算学习,根据运算结果调整更新一次参数。batch size:一次参数更新运算所需的样本数量,深度学习每一次参数更新并不是一个样本

2017-07-20 17:21:57 9046 2

原创 python if __name__=='__main__'教程及原理

一句经典介绍if name==’main‘功能的描述为:“Make a script both importable and executable” 表示可以让脚本模块不仅能够被其他模块调用,还能在当前文件中运行模块。如果直接作为脚本运行,则运行if name==’main‘后的代码,如果被其他模块调用,则不运行if name==’main‘后的代码。这个功能可以提供一个很好的代码调试方法,我们可

2017-07-14 10:20:57 330

原创 【强化学习】Deterministic Policy Gradient跟Stochastic Policy Gradient区别

Deterministic Policy Gradient(DPG) Stochastic Policy Gradient(SPG) DPG是SPG的概率分布方差趋近于0的极限状态。 policy gradient 的思想是,沿着目标函数变大的方向调整policy的参数。SPG policy是一个从state到action概率分布的映射。,因此performance objective定义

2017-07-13 16:13:42 3420

原创 强化学习Sarsa,Q-learning的收敛性最优性区别(on-policy跟off-policy的区别)

on-policy:生成样本的policy(value function)跟网络更新参数时使用的policy(value function)相同。典型为SARAS算法,基于当前的policy直接执行一次动作选择,然后用这个样本更新当前的policy,因此生成样本的policy和学习时的policy相同,算法为on-policy算法。该方法会遭遇探索-利用的矛盾,光利用目前已知的最优选择,可能学不到最

2017-07-10 21:46:12 14388 1

原创 【强化学习】RL各种算法流程伪代码

policy iteration value iteration 注:policy iteration使用bellman方程来更新value,最后收敛的value 即 是当前policy下的value值(所以叫做对policy进行评估),目的是为了后面的policy improvement得到新的policy。而value iteration是使用bellman 最优方程来更新value,最后收敛

2017-07-07 16:00:01 6718

原创 【强化学习】各种算法分析及Eligibility Trace教程

Monte Carlo算法需要运行完整的episode,利用所有观察到的真是的reward(奖励值)来更新算法。Temporal Difference(TD)算法仅当前时刻采样的reward(奖励值)进行value function的估计。一个折中的方法就是利用n步的reward(奖励进行估计)。 TD(λ)算法:定义0<λ<1,使第k步的奖励乘以系数。 实际中使用的TD(λ)算法称为

2017-07-07 11:45:40 5345

原创 【强化学习】Actor-Critic公式推导分析

注:actor以及critic可以分别看作是policy以及value function的同义词。 Actor-Critic算法是目前一个非常流行常用的强化学习算法,广泛应用于机器人,能源,经济等领域。通过low-variance(低方差)以及policy gradient(策略梯度)在线搜索最优策略,可以处理连续的state(状态)以及连续的action(行为)。 强化学习的方法可以分为以下三

2017-07-06 21:09:11 17948 1

最大熵模型改进迭代尺度法python实现

最大熵模型,改进迭代尺度法python实现,包含数据集,结构简单,注释明确

2017-12-21

Apriori关联性分析python实现(含数据集)

Apriori关联性分析python实现(含数据集),结构清晰易懂

2017-12-15

朴素贝叶斯文本分类python实现(含数据集)

朴素贝叶斯文本分类python实现(含数据集),结构清晰简单

2017-12-15

FP-growth发现频繁项集python实现(含数据集)

FP-growth发现频繁项集python实现(含数据集),结构清晰易懂

2017-12-15

线性回归python实现(含数据集)

线性回归python实现(含数据集),结构清晰,适合初学者学习

2017-12-15

主成分分析(PCA)python实现(含数据集)

主成分分析(PCA)python实现(含数据集),结构清晰,适合初学者

2017-12-15

分类树与CART树python实现(含数据集)

分类树与CART树python实现(含数据集),结构清晰易懂,适合初学者

2017-12-15

KDTree分类python代码

Kd-tree的python代码实现,内含数据集。可视化,结构清晰易懂。

2017-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除