3tensorflow 代价函数

最新推荐文章于 2020-03-08 11:06:13 发布

我爱芒果干啊

最新推荐文章于 2020-03-08 11:06:13 发布

阅读量198

点赞数

分类专栏： tensorflow 文章标签： tensorflow 代价函数

本文链接：https://blog.csdn.net/weixin_43434802/article/details/99412455

版权

tensorflow 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

3.1 代价函数

3.1.1二次代价函数

1.什么是二次代价函数

$C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2}$

????为什么是1/2：在数学原理中，求C的极值涉及到求导数，1/2是为了求导方便

其中，C表示代价函数，x表示样本，y表示实际值，a表示输出值，n表示样本的总数。为简单起见，同样一个样本为例进行说明，此时二次代价函数为： $C=\frac{(y-a)^{2}}{2}$

? $a=\sigma(z), \quad z=\sum W_{j}^{*} X_{j}+b$

? $\sigma()$ 是激活函数

2.二次代价函数推导过程

假如我们使用梯度下降法（Gradient descent）来调整权值参数的大小，权值w和偏置b的梯度推导
$\frac{\partial C}{\partial w}=(a-y) \sigma^{\prime}(z) x$

$\frac{\partial C}{\partial b}=(a-y) \sigma^{\prime}(z)$

其中，z表示神经元的输入，o表示激活函数。w和b的梯度跟激活函数的梯度成正比，激活函数的梯度越大，w和b的大小调整得越快，训练收敛得就越快。

接着来看激活函数：以sigmoid function为例

在这里插入图片描述

?假设我们目标是收敛到1。A点为0.82离目标比较远，梯度比较大，权值调整比较大。B点为0.98离目标比较近，梯度比较小，权值调整比较小。调整方案合理。

?假如我们目标是收敛到0。A点为0.82离目标比较近，梯度比较大，权值调整比较大。B点为0.98离目标比较远，梯度比较小，权值调整比较小。调整方案不合理。

正是因为存在这种不合理的情况，因此选择使用交叉熵代价函数

3.1.2交叉熵代价函数

1.什么是交叉熵函数

换一个思路，我们不改变激活函数，而是改变代价函数，改用交叉熵代价函数：
$C=-\frac{1}{n} \sum_{x}[y \ln a+(1-y) \ln (1-a)]$
其中，C表示代价函数，x表示样本，y表示实际值，a表示输出值，n表示样本的总数。
$\begin{array}{l}{a=\sigma(z), \quad z=\sum W_{j}^{\star} X_{j}+b} \\ {\sigma^{\prime}(z)=\sigma(z)(1-\sigma(z))}\end{array}$

2.推导结果

求偏导：
$\begin{aligned} \frac{\partial C}{\partial w_{j}} &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \frac{\partial \sigma}{\partial w_{j}} \\ &=-\frac{1}{n} \sum_{x}\left(\frac{y}{\sigma(z)}-\frac{(1-y)}{1-\sigma(z)}\right) \sigma^{\prime}(z) x_{j} \\ &=\frac{1}{n} \sum_{x} \frac{\sigma^{\prime}(z) x_{j}}{\sigma(z)(1-\sigma(z))}(\sigma(z)-y) \\ &=\frac{1}{n} \sum_{x} x_{j}(\sigma(z)-y) \\ \frac{\partial C}{\partial b} &=\frac{1}{n} \sum_{x}(\sigma(z)-y) \end{aligned}$

3.这个函数的优势：

?解决了单纯只用sigmoid函数时，采用梯度下降陷入局部最小的情况。

?权值和偏置值的调整与 $f (x)$ 无关，另外，梯度公式中的 $\sigma(x)-y$ 表示输出值际值的误差。所以当误差越大时，梯度就越大，参数w和b的调整就越快，训练的速度也就越快。

?如果输出神经元是线性的，那么二次代价函数就是一种合适的选择。如果输出神经元是S型函那么比较适合用交叉熵代价函数。

3.1.3对数释然代价函数

对数释然函数常用来作为softmax回归的代价函数，如果输出层神经元是sigmoid函数，可以采用交叉熵代价函数。而深度学习中更普遍的做法是将softmax作为最后一层，此时常用的代价函数是

对数似然代价函数与softmax的组合和交叉熵与sigmoid函数的组合非常相似。对数释然代价函数在二分类时可以化简为交叉嫡代价函数的形式。

3.2.拟合

3.2.1图像解释拟合的不同形式

回归的拟合

$[外链图片转存失败(img-NtWVSWXQ-1565663053899)(C:\Users\hp\Desktop\tensorflow\1564909319776.png)]$

聚类的拟合

$[外链图片转存失败(img-tb9PDvf7-1565663053901)(C:\Users\hp\Desktop\tensorflow\1564909356770.png)]$

3.2.2.防止过拟合

?增加数据集

?正则化方法

$C=C_{0}+\frac{\lambda}{2 n} \sum_{w} w^{2}$

正则化公式，其中 $C_{0}$ 表示原代价函数，通过 $\lambda$ 可以调节后边的正则化想的重要程度，如果 $\lambda$ 设置的大，后边的正则化项其作用就大。在使用优化方法降低 $C$ 时，同时会使得正则化项小，在这个过程中，会出现很多 $w$ 小的，越来越小，小到不起作用，则可以删除

?Dropout

a $设置的大，后边的正则化项其作用就大。在使用优化方法降低$ C $时，同时会使得正则化项小，在这个过程中，会出现很多$ w$小的，越来越小，小到不起作用，则可以删除

?Dropout

详细见上节

我爱芒果干啊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3tensorflow 代价函数

3.1 代价函数3.1.1二次代价函数1.什么是二次代价函数C=12n∑x∥y(x)−aL(x)∥2C=\frac{1}{2 n} \sum_{x}\left\|y(x)-a^{L}(x)\right\|^{2}C=2n1x∑∥∥y(x)−aL(x)∥∥2
复制链接

扫一扫