关于多分类问题,一般来讲有两种常见方法:1. one vs rest [“ovr”]; 2. Multinomial 回归。
本文介绍的为第二种方式,即:
假设样本的目标变量服从Multinomial Distribution, 通过最大化目标变量的似然概率来求得模型的解。
首先,我们假设样本的类别预测的概率分布函数 π 来表达,形式如下:
π(fij)=efij∑kefik(1)
其中: i 为样本编号,
通过公式(1)不难发现该函数有如下性质:
- π(fij)≥0
- ∑kj=1π(fij)=1
- π(fiv), yiv=1 tends to be large
我们发现这是一个性质很好的函数,它其实是由最大熵原则(maximum entropy principle)推导得到,这里提一下,不做展开。
在得到了样本的预测结果后,使用交叉熵来衡量预测结果与实际结果的差距,并以此来构造损失函数,如下为样本 i 的损失函数:
同时由 IID 假设得到整体样本集的损失函数表示为:
Loss=∑iL(i)(3)
又因为,和的导数等于导数和,即:
∂Loss∂f