损失函数(MSE和交叉熵）

最新推荐文章于 2024-06-10 20:48:53 发布

Aliz_

最新推荐文章于 2024-06-10 20:48:53 发布

阅读量2.1w

点赞数 5

分类专栏： Deep Learning 文章标签：深度学习损失函数 MSE 交叉熵 KL散度

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41417982/article/details/81388416

版权

全连接层解决MNIST：只是一层全连接层解决MNIST数据集
神经网络的传播：讲解了权重更新的过程
这个系列的文章都是为了总结我目前学习的积累。

损失函数

在我文章的网络中，我利用MSE（mean-square error，均方误差）作为损失函数，softmax作为激活函数。

prediction = tf.nn.softmax(tf.matmul(x, W)+b)
loss = tf.reduce_mean(tf.square(y-prediction))

在我的理解中，样本是堆放在一个空间的。假设我们的理想模型是一个函数，那么图片经过它得出的值跟图片经过我们构建的模型得出的值之间的距离，可以通过MSE来近似表示。当值的距离无限缩小时，我们的模型也就越接近理想模型。

但是，其实在应用分类问题的过程中，我们偏向于应用交叉熵（损失函数）而不是MSE。

在监督学习（supervised learning）中，我们把问题分成回归和分类。两者的本质都是相同的，但是输出不一样。我们可以认为分类的输出是离散的，而回归的输出是连续的。举个例子：

我们来测量小明的温度。那么回归是输出他的体温，如37.5度、38度等等。而分类是着重在他发烧亦或者正常。

或许例子有点奇怪，但这是我认为的它们的区别。

要介绍熵，我们需要先从信息量讲起。我们需要明确一点，越难发生的事情，它能提供的信息也就越多，信息量也就越高。越容易发生的事情，它能提供的信息也就越小，信息量也就越低。再举个例子，当你设置了个闹钟，它响了，你理所当然觉得很正常，自然也不会提供任何信息给你。但是过了时间它还不响，那就说明了可能没电了、可能坏了。（例子真烂，哈哈哈）

由此看来，信息量是跟概率挂钩的存在。因此，相信我们都知道一件事情的概率都记作 $p(x_i)$ ，那么信息量的定义如下：

I (x i) = - l n (p (x i))

$I(x_i) = -ln(p(x_i))$

-ln函数图像

这是 $-ln(p(x_i))$ 横坐标在0.0 - 1.0的图像（ $0 < p(x_i) < 1$ ），很形象的体现了信息量跟概率的关系。即随着概率的增加，能够提供的信息量逐步减少。

在信息论里面，熵是对不确定性的测量。但是在信息世界，熵越高，则能传输越多的信息，熵越低，则意味着传输的信息越少。

$H (x) = E [I (x)] = E [- l n (p (x))] x = {x 1, x 2, . . ., x n} H (x i) = \sum i p (x i) I (x i) = - \sum i p (x i) l n p (x i)$

最低0.47元/天解锁文章

关注

5
点赞
踩
25

收藏

觉得还不错? 一键收藏
2
评论
损失函数(MSE和交叉熵）

[全连接层解决MNIST](http://t.cn/Red79Ea)：只是一层全连接层解决MNIST数据集[神经网络的传播](http://t.cn/Red76Gn)：讲解了权重更新的过程这个系列的文章都是为了总结我目前学习的积累。损失函数在我文章的网络中，我利用MSE（mean-square error，均方误差）作为损失函数，softmax作为激活函数。predicti...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。