一、人工神经元到人工神经网络
人工神经网络:大量神经元以某种连接方式构成的机器学习模型
第一个神经网络(Proception)
w: 权重
b: 偏置量
σ: 激活函数
σ(x)= 1 ,激活状态
Proception无法解决异或问题
二、多层感知机
没有激活函数时,隐藏层会退化为单层网络
三、激活函数
作用:1.避免多层感知机退化
2.引入非线性,使网络可以逼近任意非线性函数
常见激活函数
蓝色为激活函数,黄色为导函数
S型(饱和激活函数)
应用:
1.RNN中使用较多
2.二分类输出
3.门控单元,值接近0,遗忘,值接近1,保留
特点:
有一个线性区(几乎)
二分类逻辑斯蒂回归模型
特点:只有一个神经元,一个输出,输出在0-1之间
做一个定义
二分类问题下,当输入数据时,结果等于0的概率等于函数输出
弊端:神经元大量落入饱和区时梯度几乎为零,不利于更新权重,不利于梯度向前传播
多分类逻辑斯蒂回归模型
多输出神经元
双曲正切(饱和激活函数)
特点:有一个线性区(几乎)
弊端:神经元大量落入饱和区时梯度几乎为零,不利于更新权重,不利于梯度向前传播
修正线性单元(非饱和激活函数)
没有饱和区,现在最常使用
四、损失函数(目标函数)
优化神经网络:调整参数使模型在训练集上损失函数最小
1、二分类实例
x1:输入的向量 y1:类别值是3
y1‘:模型预测出来的值
Loss = 真正的值(1) - 模型预测出来的值(0.8)
2、多分类实例
x1:输入向量 y1:属于类别3
y1':模型预测出来的值
常用损失函数
五、梯度下降算法
类比下山算法:找到方向,走一步
对于一个一元函数,下降的方向即为导数的方向。
同理,对于一个复杂的多输入函数,找到它的方向需要计算每个方向的偏导
θ:参数集合 (逻辑斯蒂回归模型中即为w:权重和b:偏置,我们需要对每一个w计算方向,再按这个方向调整w,同理对b,使损失函数值变小)
α:学习率(步长),人为设置,在神经网络学习过程中可以不断调整
六、反向传播
y hat:模型输出
y:真实标签
损失函数:衡量模型输出和真实样本间的差距
网络计算图
前向传播:输入数据x,乘权重w1,得到z,把z输入到激活函数Φ中,得到h(隐藏层),往后传播,h乘w2,得到o(模型输出)。模型输出和真实标签y传入到损失函数中,得到L(Loss)
反向传播: