3tensorflow 代价函数

3.1 代价函数

3.1.1二次代价函数

1.什么是二次代价函数

C = 1 2 n ∑ x ∥ y ( x ) − a L ( x ) ∥ 2 C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2} C=2n1xy(x)aL(x)2

????为什么是1/2:在数学原理中,求C的极值涉及到求导数,1/2是为了求导方便

其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本的总数。为简单起见,同样一个样本为例进行说明,此时二次代价函数为: C = ( y − a ) 2 2 C=\frac{(y-a)^{2}}{2} C=2(ya)2

? a = σ ( z ) , z = ∑ W j ∗ X j + b a=\sigma(z), \quad z=\sum W_{j}^{*} X_{j}+b a=σ(z),z=WjXj+b

? σ ( ) \sigma() σ()是激活函数

2.二次代价函数推导过程

假如我们使用梯度下降法(Gradient descent)来调整权值参数的大小,权值w和偏置b的梯度推导
∂ C ∂ w = ( a − y ) σ ′ ( z ) x \frac{\partial C}{\partial w}=(a-y) \sigma^{\prime}(z) x wC=(ay)σ(z)x

∂ C ∂ b = ( a − y ) σ ′ ( z ) \frac{\partial C}{\partial b}=(a-y) \sigma^{\prime}(z) bC=(ay)σ(z)

其中,z表示神经元的输入,o表示激活函数。w和b的梯度跟激活函数的梯度成正比,激活函数的梯度越大,w和b的大小调整得越快,训练收敛得就越快。

接着来看激活函数:以sigmoid function为例

在这里插入图片描述

?假设我们目标是收敛到1。A点为0.82离目标比较远,梯度比较大,权值调整比较大。B点为0.98离目标比较近,梯度比较小,权值调整比较小。调整方案合理。

?假如我们目标是收敛到0。A点为0.82离目标比较近,梯度比较大,权值调整比较大。B点为0.98离目标比较远,梯度比较小,权值调整比较小。调整方案不合理。

正是因为存在这种不合理的情况,因此选择使用交叉熵代价函数

3.1.2交叉熵代价函数

1.什么是交叉熵函数

换一个思路,我们不改变激活函数,而是改变代价函数,改用交叉熵代价函数:
C = − 1 n ∑ x [ y ln ⁡ a + ( 1 − y ) ln ⁡ ( 1 − a ) ] C=-\frac{1}{n} \sum_{x}[y \ln a+(1-y) \ln (1-a)] C=n1x[ylna+(1y)ln(1a)]
其中,C表示代价函数,x表示样本,y表示实际值,a表示输出值,n表示样本的总数。
a = σ ( z ) , z = ∑ W j ⋆ X j + b σ ′ ( z ) = σ ( z ) ( 1 − σ ( z ) ) \begin{array}{l}{a=\sigma(z), \quad z=\sum W_{j}^{\star} X_{j}+b} \\ {\sigma^{\prime}(z)=\sigma(z)(1-\sigma(z))}\end{array} a=σ(z),z=WjXj+bσ(z)=σ(z)(1σ(z))

2.推导结果

求偏导:
∂ C ∂ w j = − 1 n ∑ x ( y σ ( z ) − ( 1 − y ) 1 − σ ( z ) ) ∂ σ ∂ w j = − 1 n ∑ x ( y σ ( z ) − ( 1 − y ) 1 − σ ( z ) ) σ ′ ( z ) x j = 1 n ∑ x σ ′ ( z ) x j σ ( z ) ( 1 − σ ( z ) ) ( σ ( z ) − y ) = 1 n ∑ x x j ( σ ( z ) − y ) ∂ C ∂ b = 1 n ∑ x ( σ ( z ) − y ) \begin{aligned} \frac{\partial C}{\partial w_{j}} &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \frac{\partial \sigma}{\partial w_{j}} \\ &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \sigma^{\prime}(z) x_{j} \\ &=\frac{1}{n} \sum_{x} \frac{\sigma^{\prime}(z) x_{j}}{\sigma(z)(1-\sigma(z))}(\sigma(z)-y) \\ &=\frac{1}{n} \sum_{x} x_{j}(\sigma(z)-y) \\ \frac{\partial C}{\partial b} &=\frac{1}{n} \sum_{x}(\sigma(z)-y) \end{aligned} wjCbC=n1x(σ(z)y1σ(z)(1y))wjσ=n1x(σ(z)y1σ(z)(1y))σ(z)xj=n1xσ(z)(1σ(z))σ(z)xj(σ(z)y)=n1xxj(σ(z)y)=n1x(σ(z)y)

3.这个函数的优势:

?解决了单纯只用sigmoid函数时,采用梯度下降陷入局部最小的情况。

?权值和偏置值的调整与 f ( x ) f(x) f(x)无关,另外,梯度公式中的 σ ( x ) − y \sigma(x)-y σ(x)y表示输出值际值的误差。所以当误差越大时,梯度就越大,参数w和b的调整就越快,训练的速度也就越快。

?如果输出神经元是线性的,那么二次代价函数就是一种合适的选择。如果输出神经元是S型函那么比较适合用交叉熵代价函数。

3.1.3对数释然代价函数

对数释然函数常用来作为softmax回归的代价函数,如果输出层神经元是sigmoid函数,可以采用交叉熵代价函数。而深度学习中更普遍的做法是将softmax作为最后一层,此时常用的代价函数是

对数似然代价函数与softmax的组合和交叉熵与sigmoid函数的组合非常相似。对数释然代价函数在二分类时可以化简为交叉嫡代价函数的形式。

3.2.拟合

3.2.1图像解释拟合的不同形式

回归的拟合

[外链图片转存失败(img-NtWVSWXQ-1565663053899)(C:\Users\hp\Desktop\tensorflow\1564909319776.png)]

聚类的拟合

[外链图片转存失败(img-tb9PDvf7-1565663053901)(C:\Users\hp\Desktop\tensorflow\1564909356770.png)]

3.2.2.防止过拟合

?增加数据集
?正则化方法

C = C 0 + λ 2 n ∑ w w 2 C=C_{0}+\frac{\lambda}{2 n} \sum_{w} w^{2} C=C0+2nλww2

正则化公式, 其中 C 0 C_{0} C0表示原代价函数,通过 λ \lambda λ可以调节后边的正则化想的重要程度,如果 λ \lambda λ设置的大,后边的正则化项其作用就大。在使用优化方法降低 C C C时,同时会使得正则化项小,在这个过程中,会出现很多 w w w小的,越来越小,小到不起作用,则可以删除

?Dropout

a 设 置 的 大 , 后 边 的 正 则 化 项 其 作 用 就 大 。 在 使 用 优 化 方 法 降 低 设置的大,后边的正则化项其作用就大。在使用优化方法降低 使C 时 , 同 时 会 使 得 正 则 化 项 小 , 在 这 个 过 程 中 , 会 出 现 很 多 时,同时会使得正则化项小,在这个过程中,会出现很多 使w$小的,越来越小,小到不起作用,则可以删除

?Dropout

详细见上节

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值