机器学习笔记之前馈神经网络——基本介绍
引言
从本节开始,将介绍前馈神经网络。
从机器学习到深度学习
在机器学习笔记开始——机器学习笔记——极大似然估计与最大后验概率估计中,介绍了从频率学派和贝叶斯学派。
频率学派思想
频率学派逐步发展成统计机器学习(Statistical Machine Learning)。频率学派中最显著的特点是:将概率分布 P ( X ; θ ) \mathcal P(\mathcal X;\theta) P(X;θ)中的模型参数 θ \theta θ看作未知常量,从而通过学习得到近似该常量的结果。例如极大似然估计(Maximum Likelihood Estimation,MLE):
θ M L E = arg max θ P ( X ; θ ) \theta_{MLE} = \mathop{\arg\max}\limits_{\theta}\mathcal P(\mathcal X;\theta) θMLE=θargmaxP(X;θ)
观察使用频率学派思想设计的模型:
- 线性回归(Linear Regression),它的模型表示如下:
这里为方便表达,将偏置项
b b b合并在
W T x \mathcal W^Tx WTx中,后续相关模型同理。
f ( W ) = W T x f(\mathcal W) = \mathcal W^Tx f(W)=WTx
其对应策略(损失函数)是最小二乘估计。其主要思想是:对样本集合中所有样本的差距进行求和,当求和结果数值最小时,模型 f ( W ) f(\mathcal W) f(W)对数据集合中样本的拟合效果最优:
这里对于样本的构建依然是
Data : { ( x ( i ) , y ( i ) ) } i = 1 N \text{Data : } \{(x^{(i)},y^{(i)})\}_{i=1}^N Data : {(x(i),y(i))}i=1N,其中
x ( i ) x^{(i)} x(i)表示样本信息(特征);
y ( i ) y^{(i)} y(i)表示样本
x ( i ) x^{(i)} x(i)对应的标签结果。
L ( W ) = ∑ i = 1 N ∣ ∣ W T x ( i ) − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W) = \sum_{i=1}^N ||\mathcal W^Tx^{(i)} - y^{(i)}||^2 L(W)=i=1∑N∣∣WTx(i)−y(i)∣∣2 - 线性分类中的感知机算法(Perceptron),它的模型表示如下:
f ( W ) = Sign ( W T x ) f(\mathcal W) = \text{Sign }(\mathcal W^Tx) f(W)=Sign (WTx)
其中 Sign \text{Sign} Sign函数表示符号函数。对应策略是错误驱动。其具体思想是:通过修改模型参数,使得被错误分类样本的数量达到最小:
L ( W ) = ∑ x ( i ) , y ( i ) ∈ Data − y ( i ) [ W T x ( i ) ] \mathcal L(\mathcal W) = \sum_{x^{(i)},y^{(i)} \in \text{ Data}} -y^{(i)} \left[\mathcal W^Tx{(i)}\right] L(W)=x(i),y