总说 因为,一般做分类的,交叉熵很常见吧,类似KL散度或者交叉熵,本质上就是利用“编码长度”作文章。比如KL散度就是,不完美的概率 q q q去编码完美信息条件下的概率 p p p,从而多需要的编码长度。这种都是利用直接预测的某件事情的概率去做的。 比如,我需要预测这张图是不是猫,预测的猫的概率为 p ( x ) p(x)