机器学习两种方法——监督学习与无监督学习

一.前言

在介绍监督学习和无监督学习之前,我们首先来了解一下什么是特征值和目标值。

1.特征值:
特征值是指数据的特征,对于每个样本,通常具有一些 “属性”(Attribute)或者说 ”特征“(Feature),特征所具体取的值就被称作 ”特征值“。

比如,苹果的皮是”光滑“的,橘子的皮是”褶皱“的,”光滑“和”褶皱“就是 ”苹果“ 和 ”橘子“ 这两个样本的特征值。

2.目标值(标签)
目标值又叫标签,是数据的标签,它描述了该条样本数据所属的目标或类型。

比如,样本1, ”光滑” 、“球形” 及后面的一系列特征所描述的目标是 “苹果”

二.定义

1.监督学习

1.官方定义:
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

2.狐仙定义:
你的女朋友教你认识香水跟口红,她先告诉你香水跟口红分别有什么特征,然后拿出一堆香水跟口红,并且告诉你哪些是香水,哪些是口红。
这样当你再一次看到香水跟口红时,你就能够辨认出来了。

2.无监督学习

1.官方定义:
现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

2.狐仙定义:
你的女朋友拿出一堆香水跟口红,但是她不告诉你哪些是香水,哪些是口红,而且也不告诉你有什么特征,你只能靠自己对它们进行分类,这样当你再一次看到香水和口红时,你能够正确的分类。(不代表你知道什么是香水,什么是口红,仅仅代表你能够正确的把它们各自分到正确的类别中)

三.区别

差别之一:有没有目标值的差别
差别之二:学习过程有没有人工干预

四.范围

1.监督学习

1.回归问题

上图是机器学习中常见的房价预测问题,横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。
我们应用学习算法,可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖$150,000,当然这不是唯一的算法。可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近$200,000,这就是监督学习的例子。

2.分类问题

上图是机器学习中常见的恶性肿瘤问题。假设说你想通过查看
病历来推测乳腺癌良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大,所以人们显然会很在意这个问题。
让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出 1 和 0 表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为 1,不是恶性,或者说良性记为 0。
我有 5 个良性肿瘤样本,在 1 的位置有 5 个恶性肿瘤样本。现在我们有个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大,那么机器学习的问题就在于,你能否估算出肿瘤是恶性的或是良性的概率。

3.总结
回归这个词的意思是,我们在试着推测出这一系列连续值属性。
分类指的是,我们试着推测出离散的输出值。

2.无监督学习

1.聚类问题

在无监督学习中我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,只知道一个数据集。你能从数据中找到某种结构吗?针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。
这是一个,那是另一个,二者不同。是的,无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。事实证明,它能被用在很多地方。
聚类应用的一个例子就是在谷歌新闻中。谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件,自动地把它们聚类到一起。所以,这些新闻事件全是同一主题的,所以显示到一起。

2.非聚类问题

现在来介绍另一种无监督学习。
鸡尾酒宴问题:
你可以想象下,有个宴会房间里满是人,全部坐着,都在聊天,这么多人同时在聊天,声音彼此重叠,因为每个人都在说话,同一时间都在说话,你几乎听不到你面前那人的声音。所以,可能在一个这样的鸡尾酒宴中的两个人,他俩同时都在说话,我们放两个麦克风在房间中,因为这些麦克风在两个地方,离说话人的距离不同,因此每个麦克风记录下不同的声音,虽然是同样的两个说话人。听起来像是两份录音被叠加到一起,或是被归结到一起,产生了我们现在的这些录音。另外,这个算法还会区分出两个音频资源,这两个可以合成或合并成之前的录音。

五.选择

最后我们简单介绍下如何对监督学习和无监督学习进行选择。

1.从定义入手:
有训练样本则考虑采用监督学习方法;
无训练样本,则一定不能用监督学习方法。
2.现实问题中,即使没有训练样本,我们也能够凭借自己的双眼,从待分类的数据中,人工标注一些样本,并把它们作为训练样本,这样的话,可以把条件改善,用监督学习方法来做。
3.对于不同的场景,正负样本的分布如果会存在偏移(可能大的偏移,可能比较小),这样的话,监督学习的效果可能就不如用非监督学习了。

  • 7
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值