网络架构
VigossKrl
这个作者很懒,什么都没留下…
展开
-
Dropout阅读笔记
多伦多大学Hinton组http://www.cs.toronto.edu/~rsalakhu/papers/srivastava14a.pdf一、目的降低overfitting的风险二、原理用多个结构不同,训练样本不同得出的网络来分别预测结果,将这些结果进行加权求和,这个和来作为最终结果。这样能够有效规避过拟合风险。三、使用的方法1、使用了带mini-batc原创 2015-03-01 13:41:14 · 1118 阅读 · 0 评论 -
梯度下降(BGD)、随机梯度下降(SGD)、Mini-batch Gradient Descent、带Mini-batch的SGD
一、回归函数及目标函数以均方误差作为目标函数(损失函数),目的是使其值最小化,用于优化上式。二、优化方式(Gradient Descent)1、最速梯度下降法a、对目标函数求导b、沿导数相反方向移动theta原因:(1)对于目标函数,theta的移动量应当如下,其中a为步长,p为方向向量。(2)对J(theta)做一阶泰勒级数展开:原创 2015-03-01 12:05:18 · 38193 阅读 · 3 评论