【深度学习】初探神经网络

写在前面

笔者Blog里【深度学习】系列是为了记录自己在深度学习领域的学习历程,多为简略的笔记和个人的通俗易懂的总结,不是正经科普,不保证描述的准确性,没有详细的讲解过程。可能有的地方会给出出处文章。


梯度下降

梯度下降是最优化的一种方法,梯度其实就是导数,二次函数用导数求最大小值做过吧,导数等于0然后就求出极值。只不过现实生活中情况比较复杂,往往是高次等式没有通用解法,于是就采用梯度下降法。因为梯度就是函数的变化趋势,比如说2元2次函数中,若你在最小值左边,你的梯度应该是负的,越往左梯度绝对值越大,这时如果你x减去一定比例的梯度值,其实就是再往中间最小值靠拢,等到靠近最小值时,梯度值越来越小,x增加越来越少,但是当你持续无限步最终也就达到了最小值。这就是梯度下降简单版例子,现实生活中当然不止这么简单,通常是高次高纬度的,但是原理其实就是一样的。

神经网络简述

神经网络的本质是用线性函数和非线性函数的组合去模拟一个复杂函数来达到想要的效果:例如手写体数字识别,你输入8的数字特征,函数输出数字8。

反向传播

现在问题是你不知道如何设定你的线性函数的参数,于是你需要一个训练集,首先随便设一组参数,结果肯定是惨不忍睹的,为了缩小误差,也就是接近真正的参数组合,我们采用了梯度下降法。这里我们可以一步一步差分整个网络模型,首先是最末端的误差函数,我们就是在求误差函数的最小值,所以误差函数的输入值x(参考梯度例子中的x)就得往梯度方向反向走一步(因为是求最小值所以梯度下降),这时我们得到了新的使误差更小的输入值,令他为x1。同时误差函数的输入也是我们网络预测值,以前预测x,现在我们希望他预测x1。现在我们知道x并不是自变量,因为他其实是网络最后一层的输出,所以不能直接改变x的值,需要改变的是最后一层的参数,这时我们发现误差函数和最后一层其实就是函数嵌套的关系,因为最后一层的输出就是误差函数的输入。所以我们把他们写成一个函数,然后求对应参数的导(偏导)。然而因为一个复杂网络最后合并写成一整个函数会非常复杂,于是我们采用链式法则,一层一层求导数。这个过程可以一步一步推导到网络的第一层,更新每一个参数,这个过程于是叫反向传播

总结反向传播:

反向传播其实是求每一层每一个参数对最终误差的影响,反过来,也可以通过链式法则求误差对于每个参数的偏导,然后每个参数都往偏导方向反向移动一步,于是你就得到了一组比刚才网络更加优秀的网络参数,通过多个epoch的训练和反向传播,你就能的得到一个精度尚可的网络

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值