1.交叉熵
若一个信息出现的频率较大,它的不确定性较低,其他出现频率较低的,则不确定性较高。用于评价这个不确定性的就是信息熵。
有定义:信息熵代表的是随机变量或整个系统的不确定性,熵越大,随机变量或系统的不确定性就越大
有公式:
使用H(p)来衡量整个真实信息的不确定大小。在进行预测时,我们的输出结果和真实标签是有差异的,而交叉熵就是衡量俩个概率分布的差异值。
有定义:交叉熵,其用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。
有公式:
交叉熵越低,这个策略就越好,最低的交叉熵也就是使用了真实分布所计算出来的信息熵。
2.损失函数
2.1 方差代价函数非常好理解,即最小化样本标签和模型输出的距离。但我们常常不用方差函数 作为代价函数,这是因为方差代价函数的两个缺点:
缺点1:方差代价函数如下图所示,是非凸函数,导致模型可能会落入局部最优解中,这不利于我们求解全局最优解。
缺点2:配合使用sigmoid激活函数时,存在梯度更新过慢的问题。如下图所示。当预测值越接近0或1时,sigmoid函数的梯度越平滑,所以计算速度上偏慢。
2.2 这时候交叉熵就可以很好的衡量输出与真实标签的距离。
若在二分类问题中,单一样本对应真实标签(y=1,1-y=0)的输出概率为(yhat,1-yhat),那么根据交叉熵公式,计算:
(注:前面的负号是将交叉熵公式里的分号提出来)
我们再将所有样本的交叉熵加起来,就得到了整个样本集信息的交叉熵,为了避免个别极端的值影响结果,再除以整个样本数目,得到交叉熵的均值,用J表示,也叫做损失函数。均值可以减小得到的J值,使得在多次迭代计算J时,减小J的波动范围。
好了,现在用来衡量输出和真实差异的函数已经构造完成,那么如何最小化这个差异?