小小白深度学习笔记(八):机器学习基础

本文深入探讨机器学习的四个主要分支:监督学习、无监督学习、自监督学习和强化学习,通过实例解析各类问题。强调了数据预处理、特征工程、模型评估和正则化在防止过拟合中的重要性,提供了实用的模型调优建议。
摘要由CSDN通过智能技术生成

因为刚从机器学习转向深度学习研究,想借助keras之父——弗朗索瓦的书重新梳理下机器学习基本知识及需要注意的事项,通篇文章大部分内容及配图截取自书中第四章内容,自己也对书中代码进行亲自测试,做了一些自己的结构模型图。读完受益匪浅,获益良多。在此整理一番,希望更多地初学者能有所收获,如有侵权,请联系本人。

1.机器学习的四个分支
相信很多读者已经很熟悉了主要的机器学习问题:二分类问题,多分类问题和标量回归问题,这三者都是监督学习(supervised learning)的例子,其目标是学习训练输入与训练目标之间的关系。
监督学习只是冰山一角——机器学习是非常宽泛的领域,其子领域的划分非常复杂。机器学习算法大致可分为四大类,我们将在接下来的四小节中依次介绍。
1.1.1.监督学习
监督学习是目前最常见的机器学习类型。给定一组样本(通常由人工进行标注),它可以学会将输入数据映射到已知目标[也叫标注(annotation)]。一般来说,近年来广受关注的深度学习应用几乎都属于监督学习,比如光学字符识别、语音识别、图像分类和语言翻译。
虽然监督学习主要包括分类和回归,但还有更多的奇特变体,主要包括如下几种。
a.序列生成(sequence generation)。给定一张图像,预测描述图像的文字。序列生成有时可以被重新表示为一系列分类问题,比如反复预测序列中的单词或标记。
b.语法树预测(syntax tree prediction)。给定一个句子,预测其分解生成的语法树。
c.目标预测(objection detection)。给定一张图像,在图像中特定目标的周围画一个边界框。这个问题也可以表示为分类问题(给定多个候选边界框,对每个框内的目标进行分类)或分类与回归联合问题(用向量回归来预测边界框的坐标)
d.图像分割(image segmentation)。给定一张图像,在特定物体上画一个像素级的掩模(mask)。
1.1.2无监督学习
无监督学习是指在没有目标的情况下寻找输入数据的有趣变换,其目的在于数据的可视化、数据压缩、数据去噪或更好地了解数据中的相关性。无监督学习是数据分析的必备技能,在解决监督学习问题之前,为了更好地了解数据集,它通常是一个必要步骤。*降维(dimensionality reduction)和聚类(clustering)*都是众所周知的无监督学习方法。
1.1.3自监督学习
自监督学习是监督学习的一个特例,它与众不同,值得单独归为一类。自监督学习是没有人工标注的标签的监督学习,你可以将它看成没有人类参与的监督学习。标签仍然存在(因为总要有什么东西来监督学习过程),但它们是从输入数据中生成的,通常是使用启发式算法生成的。
举个栗子,自编码器(autoencoder)是有名的自监督学习的例子,其生成的目标就是未经修改的输入。同样,给定视频中过去的帧来预测下一帧,或者给定文本中前面的词来预测下一个词,都是自监督学习的例子[这里两个例子也属于时序监督学习(temporally supervised learning),即用未来的输入数据作为监督]。注意,监督学习、自监督学习和无监督学习之间的区别有时很模糊,这三类别更像是没有明确界限的连续体。自监督学习可以被重新解释为监督学习或无监督学习,这取决于你关注的是学习机制还是应用场景。
1.1.4强化学习
强化学习一直以来被人们所忽视,但最近随着Google的DeepMind公司将其成功应用于学习玩Atari游戏(以及后来学习下围棋并达到最高水平),机器学习的这一分支开始受到大量关注。在强化学习中,*智能体(agent)*接收有关其环境的信息,并学会选择使某种奖励最大化的行动。例如,神经网络会“观察”视频游戏的屏幕并输出游戏操作,目的是尽可能得高分,这种神经网络可以通过强化学习来训练。
目前,强化学习主要集中在研究领域,除游戏外还没有取得实践上的重大成功。但是,我们期待强化学习的时代已经到来,或即将到来。
另附上常见分类和回归术语:
**a.样本(sample)或输入(input):**进入模型的数据点。
**b.预测(predict)或输出(output):**从模型出来的结果。
**c.目标(target):**真实值。对于外部数据源,理想情况下,模型应该能够预测出目标。
**d.预测误差(prediction error)或损失值(loss value):**模型预测与目标之间的距离。
**e.类别(class):**分类问题中供选择的一组标签。例如,对猫狗图像进行分类时,“狗”和“猫”就是两个类别。
**f.标签(label):**分类问题中类别标注的具体例子。比如,如果1234号图像被标注为包含类别“狗”,那么“狗”就是1234号图像的标签。
**g.真值(ground-truth)或标注(annotation):**数据集的所有目标,通常由人工收集。
**h.二分类(binary classification):**一种分类任务,每个输入样本都应被划分到两个互斥的类别中。
**i.多分类(multiclass classification):**一种分类任务,每个输入样本都应被划分到两个以上的类别中,举个例子,比如手写数字分类。
**j.多标签分类(multilabel classification):**一种分类任务,每个输入样本都可以分配多个标签。举个例子,如果一幅图像里可能既有猫又有狗,那么应该同时标注“猫”标签和“狗”标签。每幅图像的标签个数通常是可变的。
**k.标量回归(scalar regression):**目标是连续标量值的任务。预测房价就是一个很好的例子,不同的目标价格形成一个连续的空间。
**l.向量回归(vector regression):**目标是一组连续值(比如一个连续向量)的任务。如果对多个值(比如图像边界框的坐标)进行回归,那就是向量回归。
**m.小批量(mini-batch)或批量(batch):**模型同时处理的一小部分样本(样本数通常为8~128)。样本数通常取2的幂,这样便于GPU上的内存分配。训练时,小批量用来为模型权重计算一次梯度下降更新。

2.评估机器学习模型
通常我们将数据划分为训练集、验证集、测试集。我们没有在训练模型的相同数据上对对模型进行评估,其原因显而易见:仅仅几轮过后,三个模型都开始过拟合。也就是说,随着训练的进行,模型在训练数据上的性能始终在提高,但在前所未有的数据上的性能则不能再变化或者开始下降。
机器学习的目的是得到可以泛化(generalize)的模型,即在前所未有的数据上表现很好的模型,而过拟合则是核心难点。你只能控制可以观察的事情,所以能够可靠地衡量模型的泛化能力非常重要。后面几节将重点介绍降低过拟合以及将泛化能力最大化的方法。本节重点介绍如何衡量泛化能力,即如何评估机器学习模型。
2.1.训练集、验证集和测试集
评估模型的重点是将数据划分为三个集合:训练集、验证集和测试集。在训练数据上训练模型,在验证数据上评估模型。一旦找到了最佳参数,就在测试数据上最后最后测试一次。
你可能会问,为什么不是两个集合:一个训练集和一个测试集?在训练集上训练模型,然后在测试集上评估模型。这样简单得多!
原因在于开发模型时总是需要调节模型配置,比如选择层数或是每层大小[这叫作模型的超参数(hyperparameter),以便与模型参数(即权重)区分开]。这个调节过程需要使用模型在验证数据上的性能作为反馈信号。这个调节过程本质上就是一种学习:在某个参数空间中寻找良好的模型配置。因此,如果基于模型在验证集上的性能来调节模型配置,会很快导致模型在验证集上过拟合,即使你并没有在验证集上直接训练模型也会如此。
造成这一现象的关键在于信息泄露(information leak)。每次基于模型在验证集上的性能来调节模型超参数,都会有一些关于验证数据的信息泄露到模型中。如果对每个参数只调节一次,那么泄露的信息很少,验证集仍然可以可靠地评估模型。但如果你多次重复这一过程(运行一次实验,在验证集上评估,然后据此修改模型),那么将会有越来越多的关于验证集的信息泄露到模型中。
最后,你得到的模型在验证集上的性能非常好(认为造成的),因为这正是你优化的目的。你关心的是模型在全新数据上的性能,而不是在验证数据上的性能,因此你需要使用一个完全不同、前所未见的数据集来评估模型,它就是测试集。你的模型一定不能读取与测试集有关的任何信息,即使间接读取也不行。如果基于测试集性能来调节模型,那么对泛化能力的衡量是不准确的。
将数据划分为训练集、验证集和测试集可能看起来很简单,但如果可用数据很少,还有几种高级方法可以派上用场。我们先来介绍三种经典的评估方法:简单的留出验证、K折验证,以及带有打乱数据的重复K折验证。
2.1.1简单的留出验证
留出一定比例的数据作为测试集。在剩余的数据上训练模型,然后在测试集上评估模型。如前所述,为了防止信息泄露,你不能基于测试集来调节模型,所以还应该保留一个验证集。
留出验证(hold-out validation)的示意图见下图。
在这里插入图片描述

代码清单follow

num_validation_samples = 10000

np.random.shuffle(data) #通常需要打乱数据

validation_data = data[:num_validation_samples]  #定义验证集
data = data[num_validation_samples:]

training_data = data[:]  #定义训练集

model = get_model()
model.train(training_data)                         #在训练数据上训练模型,
validation_score = model.evaluate(validation_data) #并在验证数据上评估模型

#现在你可以调节模型、重新训练、评估,然后再调节....

model = get_model()                                            #一旦调节好超参数,通常就在所有非测试数据上从头开始训练最终模型
model.train(np.concatenate([training_data,validation_data]))
test_score = model.evaluate(test_data)

这是最简单的评估方法,但有一个缺点:如果可用的数据很少,那么可能验证集和测试集包含的样本就太少,从而无法在统计学上代表数据。这个问题很容易发现:如果在划分数据前进行不同的随机打乱,最终得到的模型性能差别很大,那么就存在这个问题。接下来会介绍K折验证与重复的K折验证,它们是解决这一问题的两种方法。
2.1.2 K折验证
K折验证(K-fold validation)将数据划分为大小相同的K个分区。对于每个分区i,在剩余的K-1个分区上训练模型

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值