分类任务可以比喻成新冠的检测,要把阳性检出。
如何量化这个检出能力?
考虑多少阳性被检出,尽量减少漏网之鱼。
即:检出的阳性/样本里的全部阳性。
注意:预测里的假阴,就是样本里的阳
因此全部阳性=假阴性(Fasle negative)+真阳性(positive negative),因此等于 真阳/(假阴性+真阳性),用 “Recall” 评估。
“Recall” 这个词儿指的是从既有信息中,回忆、检索到目标意思,这种 “检出率” 严格地说是样本中的检出率,并不能代表真实,因此用 recall 最合适不过,语义上非常严格地限定了 “不做预测” 的特性。
考虑这样的模型给出的信号时,“噪声” 便是不小心被**“放过”的那一部分,而另一种噪声是“杀错”**,比如杀毒任务、垃圾邮件拦截任务中被误杀的良文件。这一部分,即精准度(Precision),P=真阳/预测为阳的量。
但无论如何,信号都是被正确圈出来的那部分真阳性。
既然是噪声,那如何合成总体我们要的呢?统计上使用调和平均数去考虑P和R,得到F1值。
最后,给出 gpt 从交叉熵角度的讨论:
信息增益(Information Gain)和交叉熵(Cross-Entropy):
信息增益衡量的是在知道某个特征或预测结果后不确定性减少的量
在优化模型时,我们希望最大化关于目标变量的信息增益。(也就是说,我们希望优化的模型,是一个给的结果能减少不确定度的,而不是因为效果不好所以得复检)。
交叉熵是衡量两个概率分布之间差异的一种方式。
在分类任务中,交叉熵损失可以衡量模型预测的概率分布与实际标签的概率分布之间的差异
在这个视角下,减少“漏检”和“误报”可以被视为减少模型预测和真实分布之间的交叉熵。
(训练时不光比较结果,还比较给出的概率分布。)