3.1 代价函数
3.1.1二次代价函数
1.什么是二次代价函数
C = 1 2 n ∑ x ∥ y ( x ) − a L ( x ) ∥ 2 C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2} C=2n1x∑∥∥y(x)−aL(x)∥∥2
????为什么是1/2:在数学原理中,求C的极值涉及到求导数,1/2是为了求导方便
其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本的总数。为简单起见,同样一个样本为例进行说明,此时二次代价函数为: C = ( y − a ) 2 2 C=\frac{(y-a)^{2}}{2} C=2(y−a)2
? a = σ ( z ) , z = ∑ W j ∗ X j + b a=\sigma(z), \quad z=\sum W_{j}^{*} X_{j}+b a=σ(z),z=∑Wj∗Xj+b
? σ ( ) \sigma() σ()是激活函数
2.二次代价函数推导过程
假如我们使用梯度下降法(Gradient descent)来调整权值参数的大小,权值w和偏置b的梯度推导
∂
C
∂
w
=
(
a
−
y
)
σ
′
(
z
)
x
\frac{\partial C}{\partial w}=(a-y) \sigma^{\prime}(z) x
∂w∂C=(a−y)σ′(z)x
∂ C ∂ b = ( a − y ) σ ′ ( z ) \frac{\partial C}{\partial b}=(a-y) \sigma^{\prime}(z) ∂b∂C=(a−y)σ′(z)
其中,z表示神经元的输入,o表示激活函数。w和b的梯度跟激活函数的梯度成正比,激活函数的梯度越大,w和b的大小调整得越快,训练收敛得就越快。
接着来看激活函数:以sigmoid function为例
?假设我们目标是收敛到1。A点为0.82离目标比较远,梯度比较大,权值调整比较大。B点为0.98离目标比较近,梯度比较小,权值调整比较小。调整方案合理。
?假如我们目标是收敛到0。A点为0.82离目标比较近,梯度比较大,权值调整比较大。B点为0.98离目标比较远,梯度比较小,权值调整比较小。调整方案不合理。
正是因为存在这种不合理的情况,因此选择使用交叉熵代价函数
3.1.2交叉熵代价函数
1.什么是交叉熵函数
换一个思路,我们不改变激活函数,而是改变代价函数,改用交叉熵代价函数:
C
=
−
1
n
∑
x
[
y
ln
a
+
(
1
−
y
)
ln
(
1
−
a
)
]
C=-\frac{1}{n} \sum_{x}[y \ln a+(1-y) \ln (1-a)]
C=−n1x∑[ylna+(1−y)ln(1−a)]
其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本的总数。
a
=
σ
(
z
)
,
z
=
∑
W
j
⋆
X
j
+
b
σ
′
(
z
)
=
σ
(
z
)
(
1
−
σ
(
z
)
)
\begin{array}{l}{a=\sigma(z), \quad z=\sum W_{j}^{\star} X_{j}+b} \\ {\sigma^{\prime}(z)=\sigma(z)(1-\sigma(z))}\end{array}
a=σ(z),z=∑Wj⋆Xj+bσ′(z)=σ(z)(1−σ(z))
2.推导结果
求偏导:
∂
C
∂
w
j
=
−
1
n
∑
x
(
y
σ
(
z
)
−
(
1
−
y
)
1
−
σ
(
z
)
)
∂
σ
∂
w
j
=
−
1
n
∑
x
(
y
σ
(
z
)
−
(
1
−
y
)
1
−
σ
(
z
)
)
σ
′
(
z
)
x
j
=
1
n
∑
x
σ
′
(
z
)
x
j
σ
(
z
)
(
1
−
σ
(
z
)
)
(
σ
(
z
)
−
y
)
=
1
n
∑
x
x
j
(
σ
(
z
)
−
y
)
∂
C
∂
b
=
1
n
∑
x
(
σ
(
z
)
−
y
)
\begin{aligned} \frac{\partial C}{\partial w_{j}} &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \frac{\partial \sigma}{\partial w_{j}} \\ &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \sigma^{\prime}(z) x_{j} \\ &=\frac{1}{n} \sum_{x} \frac{\sigma^{\prime}(z) x_{j}}{\sigma(z)(1-\sigma(z))}(\sigma(z)-y) \\ &=\frac{1}{n} \sum_{x} x_{j}(\sigma(z)-y) \\ \frac{\partial C}{\partial b} &=\frac{1}{n} \sum_{x}(\sigma(z)-y) \end{aligned}
∂wj∂C∂b∂C=−n1x∑(σ(z)y−1−σ(z)(1−y))∂wj∂σ=−n1x∑(σ(z)y−1−σ(z)(1−y))σ′(z)xj=n1x∑σ(z)(1−σ(z))σ′(z)xj(σ(z)−y)=n1x∑xj(σ(z)−y)=n1x∑(σ(z)−y)
3.这个函数的优势:
?解决了单纯只用sigmoid函数时,采用梯度下降陷入局部最小的情况。
?权值和偏置值的调整与 f ( x ) f(x) f(x)无关,另外,梯度公式中的 σ ( x ) − y \sigma(x)-y σ(x)−y表示输出值际值的误差。所以当误差越大时,梯度就越大,参数w和b的调整就越快,训练的速度也就越快。
?如果输出神经元是线性的,那么二次代价函数就是一种合适的选择。如果输出神经元是S型函那么比较适合用交叉熵代价函数。
3.1.3对数释然代价函数
对数释然函数常用来作为softmax回归的代价函数,如果输出层神经元是sigmoid函数,可以采用交叉熵代价函数。而深度学习中更普遍的做法是将softmax作为最后一层,此时常用的代价函数是
对数似然代价函数与softmax的组合和交叉熵与sigmoid函数的组合非常相似。对数释然代价函数在二分类时可以化简为交叉嫡代价函数的形式。
3.2.拟合
3.2.1图像解释拟合的不同形式
回归的拟合
聚类的拟合
3.2.2.防止过拟合
?增加数据集
?正则化方法
C = C 0 + λ 2 n ∑ w w 2 C=C_{0}+\frac{\lambda}{2 n} \sum_{w} w^{2} C=C0+2nλw∑w2
正则化公式, 其中 C 0 C_{0} C0表示原代价函数,通过 λ \lambda λ可以调节后边的正则化想的重要程度,如果 λ \lambda λ设置的大,后边的正则化项其作用就大。在使用优化方法降低 C C C时,同时会使得正则化项小,在这个过程中,会出现很多 w w w小的,越来越小,小到不起作用,则可以删除
?Dropout
a 设 置 的 大 , 后 边 的 正 则 化 项 其 作 用 就 大 。 在 使 用 优 化 方 法 降 低 设置的大,后边的正则化项其作用就大。在使用优化方法降低 设置的大,后边的正则化项其作用就大。在使用优化方法降低C 时 , 同 时 会 使 得 正 则 化 项 小 , 在 这 个 过 程 中 , 会 出 现 很 多 时,同时会使得正则化项小,在这个过程中,会出现很多 时,同时会使得正则化项小,在这个过程中,会出现很多w$小的,越来越小,小到不起作用,则可以删除
?Dropout
详细见上节