机器学习预备知识：分类与回归

最新推荐文章于 2024-04-04 09:45:00 发布

不一样的崽

最新推荐文章于 2024-04-04 09:45:00 发布

阅读量1.2k

点赞数

分类专栏： # 基础问题文章标签：机器学习分类回归

本文链接：https://blog.csdn.net/mcuwangzai/article/details/108963936

版权

基础问题专栏收录该内容

1 篇文章 0 订阅

订阅专栏

分类、回归问题的不同

首先解释一下回归问题，分类问题的不同点。回归问题预测的结果是连续的值，而分类问题的预测结果是离散的。拿支持向量机举个例子，分类问题和回归问题都要根据训练样本找到一个实值函数g(x). 回归问题的要求是：给定一个新的模式，根据训练集推断它所对应的输出y（实数）是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。分类问题是：给定一个新的模式，根据训练集推断它所对应的类别（如：+1，-1）。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。综上，回归问题和分类问题的本质一样，不同仅在于他们的输出的取值范围不同。分类问题中，输出只允许取两个值；而在回归问题中，输出可取任意实数。

分类预测建模

分类预测建模是将输入变量（X）到离散输出变量（y）的映射函数（f）近似的任务。

输出变量通常称为标签或类别。映射函数预测给定观察的类别或类别。

例如，可以将文本电子邮件分类为属于两个类别之一：“垃圾邮件”和“ 非垃圾邮件 ”。

分类问题要求将示例分为两个或更多个类中的一个。
分类可以具有实值或离散输入变量。
两个类的问题通常被称为两类或二元分类问题。
两个以上类的问题通常被称为多类分类问题。
为示例分配多个类的问题称为多标签分类问题。

分类模型通常将连续值预测为属于每个输出类的给定示例的概率。概率可以被解释为属于每个类的给定示例的可能性或置信度。通过选择具有最高概率的类标签，可以将预测概率转换为类值。

例如，特定的文本电子邮件可以被指定为0.1的概率为“垃圾邮件”而0.9为“非垃圾邮件”。我们可以通过选择“非垃圾邮件”标签将这些概率转换为类别标签，因为它具有最高的预测可能性。

有许多方法可以估计分类预测模型的技能，但最常见的可能是计算分类准确性。

分类准确度是所有预测中正确分类的例子的百分比。

例如，如果分类预测模型做出5个预测，其中3个是正确的，其中2个是不正确的，那么基于这些预测的模型的分类准确性将是：

accuracy = correct predictions / total predictions * 100

accuracy = 3 / 5 * 100

accuracy = 60%

能够学习分类预测模型的算法称为分类算法。

回归预测建模

回归预测建模是将输入变量（X）的映射函数（f）近似为连续输出变量（y）的任务。

连续输出变量是实数值，例如整数或浮点值。这些通常是数量，例如数量和大小。

例如，可以预测房屋可以出售特定的美元价值，可能在100,000美元到200,000美元的范围内。

回归问题需要预测数量。
回归可以具有实值或离散输入变量。
多输入变量的问题通常被称为多元回归问题。
输入变量按时间排序的回归问题称为时间序列预测问题。

由于回归预测模型预测数量，因此必须将模型的技能报告为这些预测中的错误。

有许多方法可以估计回归预测模型的技能，但最常见的可能是计算均方根误差，缩写为缩写RMSE。

例如，如果回归预测模型做出2个预测，其中1.5个预期值为1.0，另一个预测值为3.3，预期值为3.0，那么RMSE将为：

RMSE = sqrt(average(error^2))

RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)

RMSE = sqrt((0.25 + 0.09) / 2)

RMSE = sqrt(0.17)

RMSE = 0.412

RMSE的一个好处是误差分数的单位与预测值的单位相同。

能够学习回归预测模型的算法称为回归算法。

一些算法在其名称中使用“回归”一词，例如线性回归和逻辑回归，这可能会让事情变得混乱，因为线性回归是一种回归算法，而逻辑回归是一种分类算法。

分类与回归

分类预测建模问题与回归预测建模问题不同。

分类是预测离散类标签的任务。
回归是预测连续数量的任务。

分类和回归算法之间存在一些重叠; 例如：

分类算法可以预测连续值，但是连续值是类标签的概率的形式。
回归算法可以预测离散值，但是以整数量的形式预测离散值。

一些算法可用于分类和回归，只需很少的修改，例如决策树和人工神经网络。一些算法不能或不能容易地用于两种问题类型，例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是，我们评估分类和回归预测的方式各不相同，并且不重叠，例如：

可以使用准确度评估分类预测，而回归预测则不能。
可以使用均方根误差来评估回归预测，而分类预测则不能。

在分类和回归问题之间转换

在某些情况下，可以将回归问题转换为分类问题。例如，要预测的数量可以转换为离散桶。

例如，$ 0到$ 100之间连续范围内的金额可以转换为2个桶：

0级：0美元到49美元
1级：50美元到100美元

这通常称为离散化，结果输出变量是标签具有有序关系（称为序数）的分类。

在某些情况下，分类问题可以转换为回归问题。例如，标签可以转换为连续范围。

一些算法已经通过预测每个类的概率来实现这一点，而每个类又可以缩放到特定范围：

1	quantity = min + probability * range

或者，可以对类值进行排序并映射到连续范围：

1级$ 0到$ 49
2级$ 50至$ 100

如果分类问题中的类标签不具有自然序数关系，则从分类到回归的转换可能导致令人惊讶或差的性能，因为模型可能学习从输入到连续输出范围的错误或不存在的映射。

用数学的方法解释：

不一样的崽

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习预备知识：分类与回归

分类预测建模分类预测建模是将输入变量（X）到离散输出变量（y）的映射函数（f）近似的任务。输出变量通常称为标签或类别。映射函数预测给定观察的类别或类别。例如，可以将文本电子邮件分类为属于两个类别之一：“垃圾邮件”和“非垃圾邮件”。分类问题要求将示例分为两个或更多个类中的一个。分类可以具有实值或离散输入变量。两个类的问题通常被称为两类或二元分类问题。两个以上类的问题通常被称为多类分类问题。为示例分配多个类的问题称为多标签分类问题。分类模型通常将连续值预测为属于每个输出类的..
复制链接

扫一扫