【基础知识】机器学习任务之回归与分类定义和评价指标详解

总结

1. 两者本身的区别与联系

区别

(1)回归得出来的值是一一对应的,就是我输入一个值它就会告诉我所对应的精确值,也就是预测值,是连续的,且我每输入一个不同变量,他预测的值只跟这个变量对应,1对1的。

(2)而分类是离散的,是多对1的,比如,我输入一堆狗的图片进去,它都是被判断为狗,我输入一堆猫进去,都判断为猫,是多对1的,而且是离散的。

相同点

本质是一样的,都是通过数据来拟合一个函数,用来预测.我的理解就是可以都称之为回归,只是最后作用不同而已。

分类预测建模问题 与 回归预测建模问题 不同。

  • 分类是预测离散类标签的任务。
  • 回归是预测连续类数量的任务。

分类和回归算法之间存在一些重叠, 例如:

  • 分类算法可以预测连续值,但是连续值是类标签的概率的形式。
  • 回归算法可以预测离散值,但是以整数量的形式预测离散值。

一些算法可用于分类和回归,只需很少的修改,例如决策树和人工神经网络。一些算法不能或不能容易地用于两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是,我们评估分类和回归预测的方式各不相同,并且不重叠,例如:

  • 可以使用准确度评估分类预测,而回归预测则不能。
  • 可以使用均方根误差来评估回归预测,而分类预测则不能。

比如,区分图像中的人是男性还是女性的问题就是分类问题。根据一个人的图像预测这个人的体重的问题就是回归问题(类似“57.4kg”这样的预测)。
在这里插入图片描述

详细解读

分类

1. 定义

分类问题是有监督学习的一个核心问题。
分类用于解决要预测样本属于哪个或者哪些预定义的类别。此时输出变量通常取有限个离散值

分类的机器学习的两大阶段:

(1)从训练数据中学习得到一个分类决策函数或分类模型,成为分类器(classifier);
(2)利用学习得到的分类器对新的输入样本进行类别预测。

多类分类问题可转化为两类分类问题解决,如采用一对其余(One-vs-Rest)方法:将其中一个类标记为正类,将其余类标记为负类。

做个不太严谨的比方:分类就是一个类似于sign(x)函数的问题,就是你输入一个x,得到的输出要不就是0,要不就是1,比如我通过一个数据集,我拟合出来一个函数y=f(x),使得我输入一个未知的数据进去这个函数能告诉我这个数据是属于1还是属于0,

举个例子:在神经网络中,我拟合出来了这样的一个函数(这是神经网络线性分类器的评分函数)进行分类,
在这里插入图片描述
我输入一张图片x,它会给我得分,如图
在这里插入图片描述
这个图片中,显示了我输入一张猫的图片,对应的得分,判断这个猫属于猫这一类的是-96,属于狗的437.9,属于船的是61.95,

相当于我拟合的这个函数,可以把输入分为三类,而我想要的合理的分类函数(即这个被拟合出来的函数),是每一次我输入猫这个图片,它所对应的猫的分数都是最高的,而这里不是,所以不是合理的函数,需要计算一个误差,就是让max(0,狗的分-猫的分加上船的分-猫的分),这就是一个误差,意思就是如果我输入猫的分高,这个误差就是0,所以我们就可以通过不断调整上面那个公式的w使得误差无限接近于0。

所以这就是分类,我输入了一个图片进去它就会告诉我这个是猫还是别的,所以这张图片被判断为狗,明显错误的。

2. 分类的度量指标

假设只有两类样本,即正例(positive)和负例(negetive)。
在这里插入图片描述
两个字母缩写可以这样理解:

  • 前一个是模型预测的对错(T对,F错)
  • 后一个是样本真实类别(P正样本,N负样本)
  • 真正(True Positive , TP):被模型预测为正的正样本。
  • 假正(False Positive , FP):被模型预测为正的负样本。
  • 假负(False Negative , FN):被模型预测为负的正样本。
  • 真负(True Negative , TN):被模型预测为负的负样本。
2.1 准确率(accuracy)

分类器正确分类的样本数总样本数之比。
在这里插入图片描述

2.2 精准率(precision)

模型预测对的正样本个数模型预测出的正样本数 之比
在这里插入图片描述

2.3 召回率(recall)/灵敏度(sensitivity)

模型预测对的正样本数所有正样本数 之比
在这里插入图片描述

精确率和召回率是二类分类问题常用的评价指标。
精确率反映了模型判断的正例中真正正例的比重。
在垃圾分类任务中,是指预测出的垃圾短信中真正垃圾短信的比例。

2.4 P-R曲线

在这里插入图片描述
由图可见,如果提高召回率,则精准率会受到影响而下降。

在这里插入图片描述
如图是多类分类器,每次将一类分为正例,其他两类为负例,则得到蓝绿红三条曲线。而黄色曲线是他们的平均值线。
括号中area为曲线下面积。
area有助于弥补P、R的单点值局部性,可以反映全局性能。

P-R曲线的绘制
绘制P-R曲线需要一系列Percision和Recall值,通过阈值获得。分类器给每个测试样本一个“Score”值,表示该样本多大概率上属于正例。
在这里插入图片描述

2.5 F值

F值是精准率(percision)和召回率(recall)的调和平均值。
在这里插入图片描述
F1值更接近于两个数较小的那个,所以精确率和召回率接近时,F1值大。

2.6 ROC曲线

ROC曲线全称为“受试者工作特征”(Receiver Operating Characteristic)曲线。描绘了分类器在真正率(TPR)和假正率(FPR)之间的trade-off。
也可理解为:我们根据学习器的预测结果,把阈值从0变到最大,即刚开始是把每个样本作为正例进行预测,随着阈值的增大,学习器预测正样例数越来越少,直到最后没有一个样本是正样例。在这一过程中,每次计算出TP和FP,分别以它们为横、纵坐标作图,就得到了“ROC曲线”。

ROC曲线的纵轴是“真正率”(True Positive Rate, 简称TPR),真正正例占总正例的比例,反映命中概率。横轴是“假正率”(False Positive Rate,简称FPR),错误的正例占负例的比例,反映误诊率、假阳性率、虚惊概率。
在这里插入图片描述
绘制ROC曲线
ROC 曲线的画法与P-R曲线相似。
绘制ROC曲线需要一系列FPR值和TPR值,这些系列值是通过阈值形成的。对于每个测试样本,分类器会给一个“Score”值,表示该样本多大概率上属于正例或负例。
在这里插入图片描述
TP与FP的个数会随着样本数的增加而增加,因此形成一个个(FP,TP)点,将点连起来就形成了ROC曲线。
在这里插入图片描述

  • 对角线对应于“随机猜测”模型,而点(0,1)则对应于将所有正例预测为真正例、所有反例预测为真负例的“理想模型”。
  • ROC曲线不适用于多分类问题。
2.7 AUC(area under curve)

AUC就是ROC曲线下的面积,即ROC的积分。衡量学习器优劣的一种性能指标。
AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率(反映分类器对样本的排序能力)。
AUC提供了分类器的一个整体数值。通常AUC越大,分类器越好。
AUC的取值范围为[0,1]
在这里插入图片描述

3. 分类性能可视化

3.1 混淆矩阵(Confusion matrix)

如用热力图(heatmap)直观地展现类别的混淆情况(每个类有多少样本被错误地预测成另一个类)
在这里插入图片描述

3.2 分类报告(Classification report)

显示每个类的分类性能。包括每个类标签的精确率、召回率、F1值等。
在这里插入图片描述

回归

1. 定义

什么是回归?如果有一个数据集x,它所对应的真实值y1,回归就是通过将这些数据集拟合出一个函数关系,使得y2=g(x),当然拟合不可能那么完美,所以就会有误差,这个误差就是y2-y1,即拟合出来的值,减去真实值。

  • 通俗来说:
    就是通过已知的x和对应的y1,找到可以拟合原训练集数据分布的拟合函数,然后利用此训好的函数可以去预测未知的值。比如一个测试样本,用5代表,我将他代入y2=g(x),得出的y2就是一个比较符合原数据集x分布的值,可能不完全准确,但是有一定的真实性,重点就是通过已知去预测未知。
  • 官方的说:
    回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
    回归侧重在定量关系的分析,输出实数数值。而分类的输出通常为若干指定的类别标签

2. 回归的衡量指标

常用的评价回归问题的方法:

  • 平均绝对误差MAE(mean absolute error)
  • 均方误差MSE(mean squared error)及均方根差RMS
  • 逻辑回归损失或称交叉熵loss(cross-entropy loss)
  • R方值,确定系数(r2_score)
2.1 平均绝对误差(mean absolute error)

MAE:是绝对误差损失(absolute error loss)的期望值。

在这里插入图片描述

2.2 均方误差MSE(mean_squared_error)及均方根差RMS
  • MSE:是平方误差损失(squared error loss)的期望值。MSE的取值越小,预测模型的性能越好。
  • RMSE是MSE的平方根。
    在这里插入图片描述
    在这里插入图片描述
2.3 (逻辑回归损失)交叉熵损失函数(cross-entropy loss)

逻辑回归损失简称为Log loss,又称为交叉熵损失。
常用于评论逻辑回归LR和神经网络。
在这里插入图片描述

  • logistic回归损失(二类)
    举例:
    在这里插入图片描述
  • logistic回归损失(多类)
    对于多类问题,可将样本的真实标签编码成1-of-K(K为类别总数)的二元指示矩阵Y,即每个样本只有其中一个标签值为1,其余K-1都为0。
    在这里插入图片描述
    现将每个样本的真实标签记为[1, 2, 3],此时标签1可转化为[1, 0, 0],标签2转化为[0, 1, 0],标签3转化为[0, 0, 1]。
    在这里插入图片描述
    举例:
    在这里插入图片描述
    回归评价中每个样本的真实标签true label(或叫ground truth)如何获得?
    人工标注每个样本的标签或回归的目标值
    MAE,PMSE(MSE)常用于评分预测评价,如网站的让用户给物品打分的功能。

参考链接:https://blog.csdn.net/qq_44704609/article/details/104573503

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值