统计学习方法2-李航
图灵机学长
农业工程,会用到一点深度学习知识,一起进步!
展开
-
链式法则-梯度更新公式推导(手写笔记)
虽然以前学过导数、偏导、梯度之类的相关知识,但时间久远导致总感觉晕晕乎乎的,于是自己推导一下具有一个隐藏层的神经网络的梯度反向传播公式,希望对大家有帮助。笔记中指出了为什么会存在梯度消失以及梯度爆炸现象。梯度消失主要是由于激活函数的导数值域通常比较小,当网络较深时,导数的连乘会导致该值越来越趋于0,从而导致靠近输出端的权重能够得到更新,而越靠近输入端的权重无法得到更新,最终导致学习效果不佳。梯度爆炸从公式中可以看出,梯度的反向传播与权重本身的值也有关系,当权重初始值特别大时,会导致反向传播时偏导数原创 2021-08-01 13:41:15 · 2104 阅读 · 4 评论 -
如何理解概率模型和非概率模型
之前一直很纠结什么是概率模型,什么是非概率模型,最近终于理解了,分享给大家通过举一个小例子,比如我们现在有一个分类任务,通过重量、体积、甜度、颜色将西瓜分为好、中、差三类。对于概率模型来说:通过给定的特征X=(x1重量=a,x2体积=b,x3甜度=c,x4颜色=d),计算出该西瓜属于每一类的概率P。即:P(好瓜 | X)P(中瓜 | X)P(差瓜 | X)将最大概率的类别赋给该西瓜。对于非概率模型来说:每个类别的瓜都用同一个综合的判别标准,但又不同的阈值,该综合判别标准是通过给定特定X计原创 2021-08-01 13:24:29 · 2742 阅读 · 3 评论 -
感知机学习-为什么损失函数可以不考虑L2范数?
1. 前言最近想重新学习一下统计学习方法(第2版)-李航,为深度学习打下一个坚实的基础。在看到感知机的损失函数时产生了这样一个疑问,为什么明明用几何间隔计算结果更好,为什么不用,反而用效果不那么好的函数间隔?(函数间隔:即使是同一个平面,计算结果会随着w和b的缩放而产生不同的结果)2. 概念- 函数间隔其中f(x)为函数值,y是人为设定的样本的值(如:区分猫狗图片,猫标定为“ +1”,狗为“ -1 ”),即函数值✖标签。为什么该式可以表示距离?实际上函数间隔并不是真正的数据点到超平面的距离,只是原创 2021-05-24 14:56:09 · 896 阅读 · 0 评论