第二章：模型评价与损失函数

最新推荐文章于 2024-07-26 08:33:18 发布

Ambrosedream

最新推荐文章于 2024-07-26 08:33:18 发布

阅读量1k

点赞数

文章标签：模型评价机器学习阈值选取准确率计算逻辑回归

本文链接：https://blog.csdn.net/Ambrosedream/article/details/103125962

版权

本文深入讲解逻辑回归模型，包括模型的预测原理、训练过程及评价指标。探讨了权值向量和偏置如何影响样本预测，介绍了训练集、混淆矩阵等关键概念，详细解析了正确率、查准率、查全率等评估方法，并引入了ROC曲线和AUC值来衡量模型质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第二章：模型评价与损失函数

要点一： 逻辑回归模型对样本的预测取决于权值向量和偏置。
概念：

序号概念解释
1 训练集包含真实类别标签的样本集
2 训练根据训练集寻找最优参数的过程
3 损失函数是模型参数的函数，用于衡量模型参数的优劣
逻辑回归预测样本x = （x₁ ,x₂, x₃,……，x_n)^T 属于正类的概率 P：

$\frac{1}{1+e^{-b-w^{T}x}}$
- 其中，w和b是模型的参数，训练的过程就是寻找这两个参数。
混淆矩阵

预测负类预测正类
真实负类 TN FP
真实正类 FN TP
正确率
- 正确率的计算公式：
  
  $\frac{TN+TP}{TN+TP+FN+FP}$
  
  正确率是模型预测正确的样本数与总样本数之比。其并不总是可靠的，例如正例：负例=99:1，预测结果为全正，此时的正确率为99%。
- 查准率：
  - 又称准确率（precision），公式如下：
    
    $precision_p = \frac{TP}{TP+FP}$ (正类)
    
    $precision_p = \frac{TN}{FN+TN}$ (负类)
    
    由公式可知，正确预测正类样本数量和预测正类样本总数量之比。负类同。
查全率：
- 查全率又称召回率：recall
  
  $recall_p = \frac{FP}{FP+TN}$
  
  此公式意味着，预测为正类的样本数与全部正类样本数之比。又称真阳率（TPR，true positive rate）与之相对应的有假阳率（FPR，false positive rate):
  
  $\frac{FP}{FP+TN}$
ROC曲线
- 在逻辑回归中，假设我们已经得到了一组w与b,所以我们可以把测试集中的数据代入f(x)进行预测，代入函数后我们得到的是一个介于0和1之间的一个数，为了实现预测，我们需要一个阈值，我们将f(x)大于阈值的测试数据视为正类，否则为负类。
- 所以阈值的选取将直接的影响到我们的逻辑回归模型的好坏。
- 假阳率FPR与真阳率这对指标随阈值变化同升同降。高TPR和低FPR是我们希望的。
- ROC曲线如图
- 以FPR为横轴、TPR为纵轴，将不同阈值对应的ROC曲线画出来。ROC曲线上拱越高，说明在较低处的FPR处有更高的TPR。
- ROC曲线下的面积，AUC（area under curve）可以衡量模型的质量。

序号	概念	解释
1	训练集	包含真实类别标签的样本集
2	训练	根据训练集寻找最优参数的过程
3	损失函数	是模型参数的函数，用于衡量模型参数的优劣