关于交叉熵函数是什么,这里不解释。
【本文讨论的问题】:
若已知n个已知的真实值为,且
现在有相应的n个未知的预测值,且
X, Y为定值。问这些未知的预测变量满足什么条件时,可以使得 达到最大?
【解答】:
利用拉格朗日乘数法求解。
构造函数L如下:
对所有自变量求偏导,得
分别令偏导数等于0,有
这就说明,当预测值为真实值得某一固定比例时,可以使得E最大。
当X=Y时,,即当预测值等于真实值时,E最大,这就迫使预测和真实十分接近。
注:
【1】交叉熵函数能达到这个效果,还得感谢对数函数。
如果将E中得对数函数换成线性函数,那就不能达到这个效果了,只会是让最大的y_i对应的x_i取X,而其他所有x_j取0。这不是我们想要的。
【2】离散信息熵的最大值证明也是用拉格朗日乘数法就可以了。
在时达到最大。