【机器学习(一)】什么是机器学习、监督学习及无监督学习

声明:本文是以吴恩达机器学习系列课程为学习对象而作的学习笔记。本文对应P1-P4。

什么是机器学习

一个适当的学习问题定义如下:计算机程序从经验E中学习,解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。——Tom Mitchell(1998)

Arthur Samuel曾经编写了一个跳棋游戏程序,他使程序与自己对弈几万次,通过观察哪些布局容易赢,哪些布局容易输,使计算机学会下跳棋。
那么对于跳棋游戏,经验E就是程序与自己下几万次跳棋;任务T就是玩跳棋;性能度量P就是与新对手玩跳棋时赢的概率。

监督学习

给算法一个数据集,其中包含了正确答案,在这个数据集中的每个样本,我们想要算法预测并得出的“正确答案”。——吴恩达

回归问题

回归是指设法预测连续值的属性,目标是预测一个连续值输出。

举例
现收集了一组数据并绘制了一个数据集。横轴是不同房屋的平方英尺数,纵轴是不同房子的价格,单位是千美元。
在这里插入图片描述
拥有了这些数据,假设现在需要抛售一栋750平方英尺的房子,并想得到目前的市场价格。学习算法能做到的一件事就是:根据数据画一条直线,或者说,用一条直线拟合数据

基于此,可以看出:房子可以卖大约15万美元。

当然,你也可以使用二次函数或者二阶多项式来拟合数据,效果可能会更好:

如此一来,看上去它可以卖出接近20万美元。

这便是监督学习算法的一个例子:
监督学习是指:我们给算法一个数据集,其中包含了正确答案,也就是说我们给它一个房价数据集,在这个数据集中的每个样本,我们都给出正确的价格,即这个房子实际卖价,算法的目的就是给出更多的正确答案。例如为这个急需卖出的房子给出估价。我们想要算法预测并得出的“正确答案”。

分类问题

目的是预测离散值输出

举例:现在有两组病人,年龄与肿瘤大小如下:
在这里插入图片描述
假设有一个人很不幸有一个肿瘤,他的年龄与肿瘤大小如下图粉色圆点所示:
在这里插入图片描述
因此在给定的数据集上,学习算法能做的,就是在数据上画出一条直线,设法将恶性肿瘤和良性肿瘤分开。现在就可以通过这个判断这个人的肿瘤类型。

在这里插入图片描述
这种情况下有两种特征,即病人的年纪和肿瘤大小。在其他的机器学习算法中,往往会有更多的特征。

无监督学习

在无监督学习中,给定的所有数据都具有相同的标签或者都没有标签。得到一个数据集,我们不知道要拿它来做什么,也不知道每个数据点究竟是什么,仅被告知这里有一个数据集。

聚类算法

对于给定的数据集,无监督学习算法可能判定,该数据集包含两个不同的簇。

无监督学习算法可以把这些数据分成两个不同的簇,这就是聚类算法。它在各种领域都有广泛运用。

受视频篇幅以及课程内容编排影响,吴先生的视频仅讲了以上一部分内容,对监督学习及无监督学习感兴趣的可以看看我先前写的一篇文章:
【Python】机器学习入门(一)——监督学习和无监督学习

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值