模型评估
文章平均质量分 71
Vicky_xiduoduo
这个作者很懒,什么都没留下…
展开
-
机器学习算法——概率类模型评估指标2(对数似然函数Log_Loss)
除了上节的布里尔分数外,另一种常用的概率损失衡量是对数损失(log_loss),又叫做对数似然、逻辑损失或者交叉熵损失,它是多元逻辑回归以及一些拓展算法(比如神经网络)中使用的损失函数。它被定义为,对于一个给定的概率分类器,在预测概率为条件的情况下,真实概率发生的可能性的负对数。由于是损失,因此对数似然函数的取值越小,则证明概率估计越准确,模型越理想。需要注意的是,对数损失只能用于评估分类型模型。为了计算对数损失,分类器必须提供对输入的所属的每个类别的概率值,不只是最可能的类别。对数损失函数的计算公式如原创 2022-05-03 16:01:05 · 3226 阅读 · 0 评论 -
机器学习算法——概率类模型评估指标3(可靠性曲线Reliability Curve)
可靠性曲线(Reliability Curve),又叫做概率校准曲线或可靠性图。这是一条以预测概率为横坐标,真实标签为纵坐标的曲线。我们希望预测概率与真实值越接近越好,最好两者相等。因此一个模型/算法的概率校准曲线越靠近对角线越好。校准曲线是我们模型评估指标之一。和布里尔分数相似,概率校准曲线是对于标签的某一类来说的。因此一类标签就会有一条曲线,或者我们可以使用一个多类标签下的平均来表示一整个模型的概率校准曲线。但通常来说,曲线用于二分类的情况最多。但是,以二分类为例,按上述的思路构图,会出现点全部原创 2022-05-08 22:07:01 · 2593 阅读 · 1 评论 -
机器学习算法——概率类模型评估指标4(校准可靠性曲线及预测概率直方图)
一、预测概率直方图我们可以通过绘制直方图来查看模型的预测概率的分布。直方图以样本的预测概率分箱后的结果为横坐标,每个箱中的样本数量为纵坐标绘制一个图像。具体代码实现为:from sklearn.datasets import load_breast_cancerfrom sklearn.model_selection import train_test_splitfrom sklearn.naive_bayes import GaussianNBfrom sklearn.svm im原创 2022-05-09 11:52:15 · 2225 阅读 · 0 评论 -
机器学习算法——概率类模型评估指标1(布里尔分数Brier Score)
概率预测的准确程度被称为“校准程度”,是衡量算法预测出的概率和真实结果的差异的一种方式。一种常用的指标叫做布里尔分数,它被计算为是概率预测相对于测试样本的均方误差(MSE)。MSE通常用作回归问题的损失函数。MSE的公式为预测值为,真实值为Y。由MSE推出布里尔分数(Brier Score)的公式为:其中,N是样本数量,为朴素贝叶斯预测出的概率,为样本所对应的真实结果。取值范围为[0,1],分数越高则说明预测结果越差劲,校准程度越差,因此布里尔分数越接近0越好。这个指标衡量了我们原创 2022-05-03 11:11:25 · 5831 阅读 · 0 评论 -
机器学习算法——混淆矩阵(Confusion Matrix)之鸢尾花实例
什么是混淆矩阵?其实就是把所有类别的预测结果与真实结果按类别放置到了同一个表里,在这个表里我们可以清楚地看到每个类别正确识别的数量和错误识别的数量。混淆矩阵在什么情况下最好呢?答案是类别不平衡时。混淆矩阵是除了ROC曲线和AUC之外的另一个判别分类好坏程度的方法。TP=True Positive=真阳性(真实为0,预测为0,即将正类预测为正类)FP=False Positive=假阳性(真实为1,预测为0,即将负类预测为正类)FN=False Negative=假阴性(真实为0,预测为1原创 2022-04-27 10:02:19 · 5123 阅读 · 1 评论