衡量模型的参数-ROC曲线

最新推荐文章于 2024-04-16 09:16:49 发布

数学编程

最新推荐文章于 2024-04-16 09:16:49 发布

阅读量695

点赞数

分类专栏：机器学习算法文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_42060232/article/details/107462833

版权

本文通过一个简单例子介绍了二分类问题中的准确率、精度、召回率和F1值，重点讲解了ROC曲线的绘制过程及其意义。通过改变阈值，计算不同点的假阳率和真阳率，得出ROC曲线并强调了AUC值的重要性。对于机器学习初学者，这是一篇友好的入门教程。

摘要由CSDN通过智能技术生成

最近在新冠肺炎新闻报道中频繁出现一个词“假阴性”。就是检测结果呈现是阴性（没有检测出病毒），实际上是一种假象，真实情况是阳性的。检测结果表现出“假阴性”，后果是非常严重的，相当于你把一个感染者放回家了。今天就来总结一下衡量检测或者说预测结果的方法和指标。

我们把“检测”归纳为“预测”，认为检测新冠病毒实际上就是对是否感染做预测，把所有的检测方法抽象成模型。模型的输入就是病人待检测的样本，输出结果为阴性或者阳性两种。如果用函数来描述就是
$y = f (x)$

其中 $x$ 就是待检测样本， $y$ 就是输出的结果，对应关系 $f$ 就是检测的方法。

衡量模型好坏通常有这么一些指标。精度，召回率， $F_{1-score}$ ，ROC曲线，AUC值等，下面我们分别来介绍这些指标。

二分类问题

模型的输出类别，只考虑二分类问题，也就是上面对应的阴性和阳性，通常我们把阴性数值化为0，阳性为1。衡量一个模型的好坏是需要大量的已知样本的，假设我们现在有 $N$ 个样本，分别是 $x_i,y_i),i=1,2,...,N$ 我们通过对样本进行预测，把预测结果与已知结果对比，就能知道这个模型的好坏。

准确率

首先你能想到的是准确率，模型预测准不准，预测对了多少数据这个是很重要的.那么准确率就是预测对的样本数 $R$ 除以总的样本数 $N$ 。

$\frac{R}{N}$

精度，召回率和F1值

我们发现有时候仅仅是准确率这个指标是不够，举一个极端点的例子，我们预测某个地方的地震，一天预测1000次，我都说没有地震，那准确率几乎是100%。准确率这么高我不是成大仙了，实际上我就是胡说的，因为某个地方发生地震的概率实在太低。再比如预测A股大盘，我根本不用看大盘，闭着眼说跌，结果一年下来，发现准确率竟然也查过50%。这样的预测结果实际上没有参考价值的。

对于一个已经训练好的模型 $f$ ,我们有6条检验数据，3条正例，3条反例。第2行是模型预测值，第3行是样本的真实值。预测值 $\hat y_i=f(x_i)$ ,将6条验证数据代入模型中，分别得到模型的预测值¹。

截屏2020-03-2017.36.12

如果按照预测结果大于0.5 就是正例，小于0.5是反例，预测正确的数据为 $x_1,x_2,x_3,x_5$ 共4条数据，准确率就是4/6=0.67.

正确地预测为正例TP（True Positive）分别是 $x_1,x_3$ 2条，正确地预测为反例TN（True Negative）的分别是 $x_2,x_5$

最低0.47元/天解锁文章

数学编程

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
衡量模型的参数-ROC曲线

最近在新冠肺炎新闻报道中频繁出现一个词“假阴性”。就是检测结果呈现是阴性（没有检测出病毒），实际上是一种假象，真实情况是阳性的。检测结果表现出“假阴性”，后果是非常严重的，相当于你把一个感染者放回家了。今天就来总结一下衡量检测或者说预测结果的方法和指标。我们把“检测”归纳为“预测”，认为检测新冠病毒实际上就是对是否感染做预测，把所有的检测方法抽象成模型。模型的输入就是病人待检测的样本，输出结果为阴性或者阳性两种。如果用函数来描述就是y=f(x) y = f(x) y=f(x)其中xxx就是待检测样本，
复制链接

扫一扫

专栏目录