自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 CS231N-L1与L2正则化

L1、L2正则化均能惩罚值较大的参数,并且能够选择权重的偏好,让权重、模型更加简单。可以看出,加入L2正则化项的损失函数在训练时倾向将参数训练的更均匀和分散。L1正则化与Dropout作用有异曲同工之处,可使网络具有稀疏性。含有很多值为0的权重的网络,具有稀疏性,稀疏性可以防治过拟合。可以通过简单的二元函数来理解,待我复试之后来补之~

2024-03-20 19:39:55 159 1

原创 CS231N-优化器

AdaGrad中学习率分母是历史梯度的平方和,会无限增大,我们采用动量的思想对其修改,这样他的历史梯度就不会无限增大导致学习率下降。在这个公式下,历史梯度越大的特征Gt会越大,因此历史梯度越大的特征的学习率会下降越快。由于随着梯度增加,分母越来越大,学习率不断衰减甚至接近0,因此Adagrad后期的学习率非常小,容易学习困难。为不同参数设置不同的学习率,避免手动去调整学习率,减缓大梯度的更新速度,加快小梯度的更新速度。其中,参数 β 为动量因子。他结合了两者的优势,在学习率和梯度上都应用的动量的思想。

2024-03-20 22:14:26 454 1

原创 CS231N-Batch Normalization(批量归一化)

并且由于参数的更新,每层输入分布都在发生变化,导致网络很难收敛,为了让网络可以正常训练,就需要。神经网络研究人员发现,这个现象是由于每层分布的差异过大,并且无法预测导致的,那么如果让每一个batch样本在每一层都服从类似的分布,就可以解决这样的问题。我们不希望每层的分布都相同,因此我们增加了一个线性运算γ和β,γ和β是作为参数进行学习的,如果学习得当当伽马等于标准差,β等于期望时,y就是x的恒等映射。统计所有批次的均值时,每次更新均值时,1-m乘以过去的均值再加上m乘以当前批次的均值。

2024-03-20 21:29:40 160

原创 CS231N-权重初始化

为了让输出y的方差落在一个可控的范围内,例如让他等于1,这样求出参数w分布的方差就等于1/n,假设有n个输入。零初始化可能会导致对称问题,所有参数不仅初始化的值是一样的,而且训练过程中的变化也是一样的,一层中的神经元状态会始终保持一致,没有办法学习和表达更复杂的特征。如果使用双曲正切函数作为激活函数,那么又可能因为y的值过大或过小而得到一个非常小的梯度,这样反而会造成梯度消失的问题。当我们不使用任何激活函数的时候,放大的y值就会被累积在反向传播的过程里,这样就会造成梯度爆炸。

2024-03-20 21:23:57 482

原创 CS231N-激活函数

把w1*w2看成一个参数w3,那么y2=w3x还是一个线性输出,没什么用。比如说一个二分类问题,如果使用不使用激活函数,那么他的决策边界只能是。若使用了激活函数,以sigmoid为例,就可以实现。如果不使用非线性激活函数,那么。激活函数可以实现非线性划分。

2024-03-20 21:00:33 294

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除