机器学习预备知识:分类与回归

分类、回归问题的不同

首先解释一下回归问题,分类问题的不同点。回归问题预测的结果是连续的值,而分类问题的预测结果是离散的。拿支持向量机举个例子,分类问题和回归问题都要根据训练样本找到一个实值函数g(x). 回归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。综上,回归问题和分类问题的本质一样,不同仅在于他们的输出的取值范围不同。分类问题中,输出只允许取两个值;而在回归问题中,输出可取任意实数。

分类预测建模

分类预测建模是将输入变量(X)到离散输出变量(y)的映射函数(f)近似的任务。

输出变量通常称为标签或类别。映射函数预测给定观察的类别或类别。

例如,可以将文本电子邮件分类为属于两个类别之一:“垃圾邮件和“ 非垃圾邮件 ”。

  • 分类问题要求将示例分为两个或更多个类中的一个。
  • 分类可以具有实值或离散输入变量。
  • 两个类的问题通常被称为两类或二元分类问题。
  • 两个以上类的问题通常被称为多类分类问题。
  • 为示例分配多个类的问题称为多标签分类问题。

分类模型通常将连续值预测为属于每个输出类的给定示例的概率。概率可以被解释为属于每个类的给定示例的可能性或置信度。通过选择具有最高概率的类标签,可以将预测概率转换为类值。

例如,特定的文本电子邮件可以被指定为0.1的概率为“垃圾邮件”而0.9为“非垃圾邮件”。我们可以通过选择“非垃圾邮件”标签将这些概率转换为类别标签,因为它具有最高的预测可能性。

有许多方法可以估计分类预测模型的技能,但最常见的可能是计算分类准确性。

分类准确度是所有预测中正确分类的例子的百分比。

例如,如果分类预测模型做出5个预测,其中3个是正确的,其中2个是不正确的,那么基于这些预测的模型的分类准确性将是:

1

2

3

accuracy = correct predictions / total predictions * 100

accuracy = 3 / 5 * 100

accuracy = 60%

能够学习分类预测模型的算法称为分类算法。

回归预测建模

回归预测建模是将输入变量(X)的映射函数(f)近似为连续输出变量(y)的任务。

连续输出变量是实数值,例如整数或浮点值。这些通常是数量,例如数量和大小。

例如,可以预测房屋可以出售特定的美元价值,可能在100,000美元到200,000美元的范围内。

  • 回归问题需要预测数量。
  • 回归可以具有实值或离散输入变量。
  • 多输入变量的问题通常被称为多元回归问题。
  • 输入变量按时间排序的回归问题称为时间序列预测问题。

由于回归预测模型预测数量,因此必须将模型的技能报告为这些预测中的错误。

有许多方法可以估计回归预测模型的技能,但最常见的可能是计算均方根误差,缩写为缩写RMSE。

例如,如果回归预测模型做出2个预测,其中1.5个预期值为1.0,另一个预测值为3.3,预期值为3.0,那么RMSE将为:

1

2

3

4

5

RMSE = sqrt(average(error^2))

RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)

RMSE = sqrt((0.25 + 0.09) / 2)

RMSE = sqrt(0.17)

RMSE = 0.412

RMSE的一个好处是误差分数的单位与预测值的单位相同。

能够学习回归预测模型的算法称为回归算法。

一些算法在其名称中使用“回归”一词,例如线性回归和逻辑回归,这可能会让事情变得混乱,因为线性回归是一种回归算法,而逻辑回归是一种分类算法。

分类与回归

分类预测建模问题与回归预测建模问题不同。

  • 分类是预测离散类标签的任务。
  • 回归是预测连续数量的任务。

分类和回归算法之间存在一些重叠; 例如:

  • 分类算法可以预测连续值,但是连续值是类标签的概率的形式。
  • 回归算法可以预测离散值,但是以整数量的形式预测离散值。

一些算法可用于分类和回归,只需很少的修改,例如决策树和人工神经网络。一些算法不能或不能容易地用于两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是,我们评估分类和回归预测的方式各不相同,并且不重叠,例如:

  • 可以使用准确度评估分类预测,而回归预测则不能。
  • 可以使用均方根误差来评估回归预测,而分类预测则不能。

在分类和回归问题之间转换

在某些情况下,可以将回归问题转换为分类问题。例如,要预测的数量可以转换为离散桶。

例如,$ 0到$ 100之间连续范围内的金额可以转换为2个桶:

  • 0级:0美元到49美元
  • 1级:50美元到100美元

这通常称为离散化,结果输出变量是标签具有有序关系(称为序数)的分类。

在某些情况下,分类问题可以转换为回归问题。例如,标签可以转换为连续范围。

一些算法已经通过预测每个类的概率来实现这一点,而每个类又可以缩放到特定范围:

1

quantity = min + probability * range

或者,可以对类值进行排序并映射到连续范围:

  • 1级$ 0到$ 49
  • 2级$ 50至$ 100

如果分类问题中的类标签不具有自然序数关系,则从分类到回归的转换可能导致令人惊讶或差的性能,因为模型可能学习从输入到连续输出范围的错误或不存在的映射。

 

用数学的方法解释:

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值