机器学习: 神经网络中的Error函数

最新推荐文章于 2022-10-19 11:28:46 发布

weixin_30487201

最新推荐文章于 2022-10-19 11:28:46 发布

阅读量334

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/mtcnn/p/9412483.html

版权

利用神经网络做分类的时候，可以将神经网络看成一个mapping function，从输入到输出经过复杂的非线性变换。而输出的预测值与实际的目标值总是存在一定偏差的，一般利用这种偏差建立error 函数，再利用back propagation 来训练神经网络。

我们可以探讨一下，error 函数与概率分布或者概率密度函数的关系。

二分类

先来看二分类情况(t∈{0,1})，我们假设网络最终的输出会经过一个sigmoid 函数:

y = σ (a) = 1 1 + e x p ( - a )

0≤y(x,w)≤1, y(x,w) 可以看成是x 属于第一类的条件概率 p(C2|x), 显然，p(C1|x)=1−y(x,w), 这种概率分布可以用伯努利分布来表示:

p (t | x, w) = y (x, w) t (1 - y (x, w)) 1 - t

那么，给定一组训练数据，含有N个独立观测的样本，我们可以建立如下的概率分布:

p (D | w) = \prod n = 1 N p (t n | w) = \prod k = 1 N y n t n (1 - y n) 1 - t n

这里，yn=y(xn,w). 对上式取对数，对应的是似然估计函数:

ln p (D | w) = \sum n = 1 N {t n ln y n + (1 - t n) ln (1 - y n)}

我们转换成error的时候，当然是希望error越小越好，最大似然估计对应最小的error，所以对上式取负号，可以得到如下的error函数:

E (w) = - \sum n = 1 N {t n ln y n + (1 - t n) ln (1 - y n)}

这个就是训练二分类神经网络的时候，用的error 函数。

多个二分类

如果是多个二分类同时存在的情况，就像我们之前在离散变量的概率分布里讨论的那样，可以建立如下的概率分布:

p (t | x, w) = \prod k = 1 K y t k k (1 - y k) (1 - t k)

整个训练集的概率分布可以表示为:

p (D | w) = \prod n = 1 N \prod k = 1 K p (t n k | w) = \prod n = 1 N \prod k = 1 K y n k t n k (1 - y n k) 1 - t n k

与二分类的情况类似，我们可以通过似然函数，取负对数，得到相应的error 函数:

E (w) = - \sum n = 1 N \sum k = 1 K {t n k ln y n k + (1 - t n k) ln (1 - y n k)}

多分类

最后，我们再讨论一下多分类的情况，可以用0-1组成的向量来表示输出，每个输出向量中，只有一个1，其它都是0，第几个分量为1，说明输入的x 属于第几类。y(x,w)=p(tk=1|x), 这种多分类与上面讨论的多个二分类的情况不同，多分类中，每次的输出向量中只有一个1。显然:

\sum k = 1 K p (t k = 1 | x) = 1

给定一个样本，其概率分布为:

p (t | x, w) = \prod k = 1 K p (t k | x, w) = \prod k = 1 K y k (x, w) t k

一组训练样本的概率分布可以表示为:

p (D | w) = \prod n = 1 N \prod k = 1 K p (t n k | w) = \prod n = 1 N \prod k = 1 K y n k t n k

对上式取负对数，我们可以得到多分类的error函数为:

E (w) = - \sum n = 1 N \sum k = 1 K t n k ln y k (x n, w)

其中:

y k (x, w) = exp ( a k ( x , w ) ) \sum j exp ( a j ( x , w ) )

转载于:https://www.cnblogs.com/mtcnn/p/9412483.html

weixin_30487201

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习: 神经网络中的Error函数

利用神经网络做分类的时候，可以将神经网络看成一个mapping function，从输入到输出经过复杂的非线性变换。而输出的预测值与实际的目标值总是存在一定偏差的，一般利用这种偏差建立error 函数，再利用back propagation 来训练神经网络。我们可以探讨一下，error 函数与概率分布或者概率密度函数的关系。二分类先来看二分类情况(...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。