1-3 监督学习

1. 问题提出

如果你想要预测房价,下图是一些收集的数据,横轴是房子的面积,纵轴是房子的价格。

在这里插入图片描述

如果你的朋友有一栋 750 平方英尺的房子,他要卖掉这栋房子,想知道能卖多少钱,怎么使用算法来预测价格?

如果在图中使用一条直线来拟合数据,如下图,这栋房子可以卖大约 15000 美元。
在这里插入图片描述
这不是最好的或者唯一的方法,除了使用直线,也可能使用二次函数能更好的拟合数据,那么我们接下来要讨论的问题是如何来选择拟合数据的方法。

2. 监督学习定义

  • 正确的答案已经给定。对于房价数据集中的每一个样本,都能给出正确的价格,算法的目的是给出更多争取的答案

3. 回归问题和分类问题

房价的预测可以被称为:回归问题,即预测连续的数值输出。

下图是另一个例子,通过肿瘤(Tumor)的大小,来预测肿瘤是否为恶性(Malignant)。

肿瘤恶性的预测输出值只能为 0(良性)和 1(恶性),这是另一种监督学习问题:分类问题,即预测离散的数值输出

分类问题可以有更多的输出,例如 0(良性)、 1(第一种癌症)、2(第二种癌症)等,还可以下图的方式来表示分类。其中,“o”代表良性,“×”代表恶性,与上图的表示一一对应。

在这里插入图片描述
下图是另一个例子,通过肿瘤(Tumor)的大小和年龄(Age)两个特征,来预测肿瘤是否为恶性(Malignant)。其中,“o”代表良性,“×”代表恶性。这时我们可以用如图所示的黑色直线来区分两种类型,位于直线下方为良性肿瘤,位于上方为恶性肿瘤。
在这里插入图片描述

预测肿瘤的分类还可以有其他特征,例如:

  • 肿块的厚度
  • 肿瘤细胞大小的均匀性
  • 肿瘤细胞形状的均匀性

算法不仅能处理两三四个特征,而是能处理无穷多数量的特征。支持向量机(SVM)就是一种允许计算机处理无穷多特征的方法。

4. 一个问题

你正在经营一家公司,并且你想开发学习算法来解决下面两个问题:

  • 问题1:你有很多相同的货物的库存要卖,你想预测在接下来的三个月里,这些货物能销售多少。
  • 问题2:你想要写一个软件来检查每一个客户的账户,是否被入侵或破坏

这两个 问题该被归为分类问题还是回归问题?

答案:问题1应该被看做回归问题,问题2应该被看做分类问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叼辣条闯天涯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值