损失函数(MSE和交叉熵)

全连接层解决MNIST:只是一层全连接层解决MNIST数据集
神经网络的传播:讲解了权重更新的过程
这个系列的文章都是为了总结我目前学习的积累。

损失函数

在我文章的网络中,我利用MSE(mean-square error,均方误差)作为损失函数,softmax作为激活函数。

prediction = tf.nn.softmax(tf.matmul(x, W)+b)
loss = tf.reduce_mean(tf.square(y-prediction))

在我的理解中,样本是堆放在一个空间的。假设我们的理想模型是一个函数,那么图片经过它得出的值跟图片经过我们构建的模型得出的值之间的距离,可以通过MSE来近似表示。当值的距离无限缩小时,我们的模型也就越接近理想模型。

但是,其实在应用分类问题的过程中,我们偏向于应用交叉熵(损失函数)而不是MSE。

在监督学习(supervised learning)中,我们把问题分成回归和分类。两者的本质都是相同的,但是输出不一样。我们可以认为分类的输出是离散的,而回归的输出是连续的。举个例子:

我们来测量小明的温度。那么回归是输出他的体温,如37.5度、38度等等。而分类是着重在他发烧亦或者正常。

或许例子有点奇怪,但这是我认为的它们的区别。

要介绍熵,我们需要先从信息量讲起。我们需要明确一点,越难发生的事情,它能提供的信息也就越多,信息量也就越高。越容易发生的事情,它能提供的信息也就越小,信息量也就越低。再举个例子,当你设置了个闹钟,它响了,你理所当然觉得很正常,自然也不会提供任何信息给你。但是过了时间它还不响,那就说明了可能没电了、可能坏了。(例子真烂,哈哈哈)

由此看来,信息量是跟概率挂钩的存在。因此,相信我们都知道一件事情的概率都记作 p(xi) p ( x i ) ,那么信息量的定义如下:

I(xi)=ln(p(xi)) I ( x i ) = − l n ( p ( x i ) )

-ln函数图像

这是 ln(p(xi)) − l n ( p ( x i ) ) 横坐标在0.0 - 1.0的图像( 0<p(xi)<1 0 < p ( x i ) < 1 ),很形象的体现了信息量跟概率的关系。即随着概率的增加,能够提供的信息量逐步减少。

在信息论里面,熵是对不确定性的测量。但是在信息世界,熵越高,则能传输越多的信息,熵越低,则意味着传输的信息越少。

H(x)=E[I(x)]=E[ln(p(x))]x={ x1,x2,...,xn}H(xi)=ip(xi)I(xi)=ip(xi)lnp(xi) H ( x ) = E [
  • 5
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值