传统神经网络

最新推荐文章于 2024-04-02 18:09:13 发布

houn27

最新推荐文章于 2024-04-02 18:09:13 发布

阅读量943

点赞数

分类专栏：深度学习文章标签：深度学习入门

本文链接：https://blog.csdn.net/houn27/article/details/79117890

版权

2 篇文章 0 订阅

订阅专栏

 
 主要内容：线性回归，神经网络 

 
 1.线性回归 

 
 定义：一个线性方程，用线性关系来描述从输入到输出的映射关系 

 
 -->希望找到系数abcd使得预测值尽可能接近目标值 

 
 *找系数方法：梯度下降法（通过特征（x,y）确定特征拟合一条直线） 

 
 思想：损失函数loss对系数求偏导得到用自变量x0,x1……表示的梯度，然后，新系数=旧系数-步长*梯度，更新系数。当loss小于预定值时候达到目标，终止算法 

 
 算法过程： 

  p.s.目标y是事先知道的（样本特征得一部分），作为常数带入loss损失函数 

  *多目标学习：输出y有多个（预测多个结果），通过合并多个任务loss实现 

    
  线性回归局限：非线性分布 

 
 2.从线性到非线性 

 
    做法： 

 
 在线性得基础上加上一个非线性激励函数 

 
 *常用激励函数 

 
 (1)sigmoid将输入映射到[0,1]，梯度下降很快 

 
 （2）将数据映射到[-1,1]，梯度衰减明显（乘该函数后倒数变小） 

 
 （3）ReLU：截断负值，损失大量特征，梯度无损失-->常用 

  （4）Leaky ReLU：保留更多参数(不能是y=x,否则线性) 

  加上非线性激励函数-->神经元-->回归网络 

  p.s. 没有线性回归网络，线性无论叠多少层都相当于一层系数矩阵相乘 

 
 3.神经网络构建 

  *构建：神经元的串联与并联 

  并联：宽度；串联：深度 

  n+1层第k个神经元数值：输入由前一层所有映射到它的神经元输出值Xni和对应权重Wnki决定 

  *神经网络优化：链式法则（反向求loss-->Y-->x-->Wn） 

 
 4.神经网络“配件” 

 
 （1）损失函数LOSS 

          真值与预测值之间的差，选取合适的1损失函数，使LOSS值能一直降（收敛） 

     *常见的损失函数：1.softmax (e的Zi次幂比上Zi次之和) 

  -->由于指数区分度较大，可用于分类问题 

  2. cross entropy  
 交叉熵：使用了“估算”的编码后，得到的平均编码长度（可能不是最短的） 

  解释：p是真实概率分布，q是你以为的概率分布（可能不一致）； 

  你以 q 去编码，编码方案 log(1/q_i)可能不是最优的； 

  于是，平均编码长度 = ∑ p_i *log(1/q_i)，就是交叉熵； 

  3.设计损失函数：自定义 

  方法：不同loss加权求期望；合并多个Loss(整合)：不同loss线性相加； 

 
 （2）学习率α 
 （loss与时间的比值） 

         数值大：收敛速度快；数值小：精度高； 

  选择合适学习率： 

  1.根据数据集选择合适学习率，数据量增多，学习率减小 ； 

      或采用成本函数-均值平方差函数 

  2. 离最优解较远时(loss较小)用较大学习率，离最优解较近时(loss较大)用小的学习率；                     

  3. 常用学习率：0.00001，0.0001，0.001，0.003，0.01，0.03，0.1，0.3，1，3，10 

 
 （3）动量，Nestrov动量（两步走，先走动量再与原惯性合成） 

  动量梯度下降法：当求偏导计算出当前点梯度后，用动量与梯度合成 
 改变方向（优化梯度向最小方向前进） 

 
 （4）过拟合 overfitting 

  面对一般情况时候判断效果较好即可 

  过拟合：当一点“不一样”就判断不同（让小概率事件对结果直接产生影响） 

  （绿线，W2过拟合） 

  过拟合应对：regularization正则化（使w权重尽可能平衡） 

  <1>L2 正则化：在loss中加W^2项，使得求偏导计算梯度时使w项权重衰减 

  红框weight decay 

  <2>Dropout 正则化： 

  权重随机赋0（20%~50%） 

  <3>fine-tuning  对大部分层数据锁定，只让实际进行计算的层进行更新 

关注

专栏目录