一篇文章帮你搞懂监督学习和无监督学习

在理解监督学习和无监督学习之前,我们先来聊一聊什么是机器学习(ML,Machine Learning)

机器学习:

首先呢,学习可以称为一个举一反三的过程,举个栗子:我们在学生时代经常参加的考试,考试的题目在上考场前我们未必做过,但是在考试之前我们通常都会刷很多的题目,通过刷题目学会了解题方法,因此考场上面对陌生问题也可以算出答案。

机器学习的思路也类似:我们可以利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(考场的题目)。就像考试前老师给我们预测考试会考什么一样。

简单的一句话:机器学习就是让机器从大量的数据集中学习,进而得到一个更加符合现实规律的模型,通过对模型的使用使得机器比以往表现的更好。
通俗一点,可以把机器学习理解为我们教机器如何做事情。


进入正题~

监督学习

定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

监督学习的分类:回归(Regression)、分类(Classification)

回归(Regression)

回归问题是针对于连续型变量的。

举个栗子:预测房屋价格
假设想要预测房屋价格,绘制了下面这样的数据集。水平轴上,不同房屋的尺寸是平方英尺,在竖直轴上,是不同房子的价格,单位时(千万$)。给定数据,假设一个人有一栋房子,750平方英尺,他要卖掉这栋房子,想知道能卖多少钱。
这个时候,监督学习中的回归算法就能派上用场了,我们可以根据数据集来画直线或者二阶函数等来拟合数据。
在这里插入图片描述
通过图像,我们可以看出直线拟合出来的150k,曲线拟合出来是200k,所以要不断训练学习,找到最合适的模型得到拟合数据(房价)。

回归通俗一点就是,对已经存在的点(训练数据)进行分析,拟合出适当的函数模型y=f(x),这里y就是数据的标签,而对于一个新的自变量x,通过这个函数模型得到标签y。

分类(Classification)

和回归最大的区别在于,分类是针对离散型的,输出的结果是有限的。

举个栗子:估计肿瘤性质
假设某人发现了一个乳腺瘤,在乳腺上有个z肿块,恶性瘤是危险的、有害的;良性瘤是无害的。假设在数据集中,水平轴是瘤的尺寸,竖直轴是1或0,也可以是Y或N。在已知肿瘤样例中,恶性的标为1,良性的标为0。那么,如下,蓝色的样例便是良性的,红色的是恶性的。
在这里插入图片描述
这个时候,机器学习的任务就是估计该肿瘤的性质,是恶性的还是良性的。

那么分类就派上了用场,在这个例子中就是向模型输入人的各种数据的训练样本(这里是肿瘤的尺寸,当然现实生活里会用更多的数据,如年龄等),产生“输入一个人的数据,判断是否患有癌症”的结果,结果必定是离散的,只有“是”或“否”。简单来说,分类就是通过分析输入的特征向量,对于一个新的向量得到其标签。

监督学习的常见算法有BP神经网络算法以及常见的线性回归算法。


无监督学习

无监督学习的分类:降维(Dimensionality reduction)、聚类(Clustering)

定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。
无监督学习是另一种常用的机器学习算法,与监督学习不同的是,无监督学习的样本是不包含标签信息的,只有一定的特征,所以由于没有标签信息,学习过程中并不知道分类结果是否正确。
比较典型的是一些聚合新闻网站,利用爬虫爬取新闻后对新闻进行分类的问题,它们都是没有新闻工作者的,只是聚合全网的新闻。
例如:我们搜索5G试点城市
在这里插入图片描述
所有有关这个关键字的新闻都会出现,它们被作为一个集合,在这里我们称它为聚合(Clustering)问题

无监督学习的典型问题就是上面说的聚类问题,比较有代表性的算法有K-Means算法(K均值算法)、DBSCAN算法等
聚类算法是无监督学习算法中最典型的一种学习算法,它是利用样本的特征,将具有相似特征的样本划分到同一个类别中,而不会去关心这个类别是什么
除了聚类算法外,无监督学习中还有一类重要的算法就是降维的算法,原理是将样本点从输入空间通过线性或非线性变换映射到一个低维空间,从而获得一个关于原数据集的低维表示。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

青春是首不老歌丶

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值