机器学习--第五次课

前言

首先是对上一节课的一些问题,然后是ROC,受试者工作特征,真正例率实际山就是recall,真正例率(true positive rate, TPR)和假正例率(false positive rate, FPR)。这两个值是来自混淆矩阵的几个重要值,被广泛用在ROC曲线(Receiver Operating Characteristic curve)的绘制中。 1. 真正例率 (TPR):也被称为灵敏度,召回率或命中率,它衡量的是分类器预测为正例的正例占所有真实正例的比例。 TPR = TP / (TP + FN) 其中,TP表示真正例的数量(模型正确预测为正例的正例数量),FN表示假反例的数量(模型错误预测为反例的正例数量)。 2. 假正例率 (FPR):它衡量的是分类器预测为正例的反例占所有真实反例的比例。也就是说,它反映的是所有真实反例中,被错误地标记为正例的比例。 FPR = FP / (FP + TN) 其中,FP表示假正例的数量(模型错误预测为正例的反例数量),TN表示真反例的数量(模型正确预测为反例的反例数量)。 这两个值分别作为ROC曲线的Y轴和X轴,不同的阈值会得到不一样的TPR和FPR。ROC曲线展示的就是在不同阈值下的TPR和FPR之间的权衡关系。

正文

1. Cost-sensitive Error Rate: Cost-sensitive error rate 是发生在分类问题中,对于不同类型的错误,我们分配不同的成本。举个示例,对于垃圾邮件的分类,错过一封重要邮件的错误,可能比错误地把某个没有价值的邮件分类为重要邮件的成本要高得多。在这种情况下,我们将高的成本分配给高成本的错误,这就是成本敏感的错误率。

2. Bias and Variance of Estimator: 偏差(Bias)和方差(Variance)是我们使用统计模型进行估计或预测时需要考虑管理和平衡的两个重要方面。 - Bias是估计值与真实值之间的差异。一个高偏差的模型可能会忽略数据中的某些相关信息,导致模型假设过于简单,从而引起预测结果不准确的问题,也就是所谓的欠拟合问题。 - Variance是在不同训练数据上估计产生的结果的可变性。一个高方差的模型可能会对数值的微小变化过于敏感,导致模型假设太复杂,从而引起预测结果的不稳定,也就是所谓的过拟合问题。 在实际应用中需要在偏差和方差之间寻找平衡,这就是著名的偏差-方差权衡(Bias-Variance Tradeoff)。如果模型太简单,则可能会增加偏差;反之,如果模型太复杂,则可能会增加方差。

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值