从极大似然的角度 | 从熵的角度 |
假设样本为X,其对应的类别为Y,P(Y|X)就是给定X判断为Y的后验概率。我们希望每一个样本X被正确预测到相应类别Y的概率都最大,即max P(Y|X),那么所有样本正确预测概率相乘最大化就是我们所期望的,因此采用极大似然的原理。 Step1:构建似然函数 Step2:构建对数似然函数,以简便运算 Step3:构建损失函数 我们的目标是希望对数似然函数更大,即等价于使负的对数似然函数最小,即。因此损失函数为: 对于单个样本有,对数(似然)损失函数由此而来。 | 首先引入信息量,信息量即信息多少的度量。公式表达如下,是事件x发生的概率。 之后引入信息熵,信息熵就是信息量的期望,它代表了一个系统的不确定性,系统中信息熵越大,事件x的不确定性越大。
对于一个样本集,存在两个概率分布p(x)和q(x),其中p(x)为真实分布,q(x)为非真实分布(是我们预测的概率分布)。基于真实分布p(x)表示这个样本集的信息熵如下: 如果用非真实分布q(x)来表示样本集的信息量的话,有: 这个就是交叉熵。 |
一般情况下为多分类时,有: 其中P表示样本X被预测到正确类别Y的概率。则损失函数为: 这也就是多分类的交叉熵损失。这里y=1,因为对数损失只考虑样本X被正确预测到相应类别Y的概率尽可能大,无需考虑错分为其他类别的概率。 | 多分类情况下,q(x)是我们正确将模型预测为相应类别的概率,对应于左边的概率P。真实分布p(x)表示这个样本本身就为对应类别的概率,就为1。可以这么理解,假设这个样本的类别为2,那么它就是客观的真实的类别为2,不可能为其他类别,所以真实概率为1,对应于左边的y。则有: 即对应于极大似然角度下的多分类交叉熵损失 |
特殊地,当是二分类时,如逻辑回归,P为模型预测为类别1的概率,那么预测为类别0的概率就为1-P,则有: 此时套用上面的对数损失函数有:
即就是二分类的交叉熵损失 | 特殊地,当是二分类时,则有
因此有: 即对应于极大似然角度下的二分类交叉熵损失 |
【机器学习】分别从极大似然和熵的角度来看交叉熵损失
最新推荐文章于 2022-02-12 08:53:56 发布