机器学习(1):机器学习概述

1. 什么是机器学习

机器学习是关于计算机基于数据构建概率模型并运用模型对数据进行预测与分析的一门学科。也成为统计学习。

机器学习的研究对象是数据,用于对数据的预测与分析,特别是对未知新数据的预测与分析。

机器学习的方法

机器学习方法可以概括为:从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。这样机器学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。称其为机器学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。

实现机器学习方法的步骤

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合;
  3. 确定模型选择的准则,即学习的策略;
  4. 实现求解最优模型的算法,即学习的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

2. 机器学习的分类

根据不同的分类标准,机器学习会有多种不同的分类。一般情况下我们认为机器学习包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。

根据模型的种类可以分为概率模型与非概率模型,线性模型与非线性模型,参数化模型与非参数化模型。

根据算法,可以分为在线学习和批量学习。

按技巧分类,可以分为贝叶斯学习和核方法。

2.1 监督学习

监督学习是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。

监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。可以分为学习和预测两个过程,学习过程利用已知的训练数据集,通过学习得到一个模型,预测过程对于给定的测试样本集中的输入,根据模型得出相应的输出集。

模型:
这里的模型其实就是指映射关系,表现为条件概率分布P(Y|X)或决策函数Y=f(X)。

输入空间、特征空间和输出空间

在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间。输入与输出空间可以是有限元素的集合,也可以是整个欧氏空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但是通常输出空间远远小于输入空间。

每个具体的输入是一个实例,通常称为特征向量。所有特征向量存在的空间成为特征空间。特征空间的每一维对应于一个特征。模型实际上都是定义在特征空间上的。

欧氏空间:
我们中学中经常讨论的2维、3维空间数据,如果推广到n维空间,那这些符合定义的空间则被统称为欧几里得空间。简而言之,欧氏空间就是n维数据的空间抽象。

假设空间

监督学习的目的在于找到一个最好的由输入到输出的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。通俗地所,假设空间是我们认为的所有可能的模型的集合。

2.2 无监督学习

无监督学习是指从无标注数据中学习预测模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。

假设X是输入空间,Z是隐式结构空间。无监督学习的学习系统通过对输入的训练集学习,得到一个最优模型,可表示为z = g(x),条件概率分布P(z|x)或P(x|z)的形式。预测系统则是对于给定的输入x,由模型得到相应的输出z,往往需要聚类或降维,最后进行概率估计。

2.3 强化学习

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题,本质是学习最优的序贯决策。通俗地说,强化学习是系统根据环境不断调整以搜索一个最优解决方案。

强化学习基于马尔可夫决策过程,是状态、奖励、动作序列上的随机过程。

马尔可夫决策:“马尔可夫”通常意味着在当前状态下,未来和过去是独立的。 建立Markovian系统的关键思想是无记忆。无记忆是系统历史不会影响当前状态的想法。用概率表示法,无记忆性转化为这种情况。考虑一系列动作产生的轨迹,我们正在寻找当前动作将带给我们的位置。

2.4 半监督学习

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,旨在利用未标注数据中的信息,辅助标注数据进行监督学习,以较低的成本达到较好的学习效果。

2.5 主动学习

主动学习是指机器不断主动给出实例让人员进行标注,然后利用标注数据学习预测模型的机器学习问题。主动学习的目标是找出对学习最有帮助的实例让人员标注,以较小的标注代价,达到较好的学习效果。

2.6 概率模型与非概率模型

在监督学习中,概率模型取条件概率分布形式P(y|x),非概率模型取函数形式y=f(x),其中x是输入,y是输出。在无监督学习中,概率模型取条件概率分布形式P(z|x)或P(x|z),非概率模型取函数形式z=g(x),其中x是输入,z是输出。

条件概率分布P(y|x)和函数y=f(x)可以相互转化。条件概率分布最大化后得到函数,函数归一化后得到条件概率分布。所以,概率模型和非概率模型的区别不在于输入与输出之间的映射关系,而在于模型的内在结构。

2.7 线性模型与非线性模型

对于非概率模型,还可以分为线性模型和非线性模型。如果函数y=f(x)是线性函数,则称模型是线性模型,否则称模型是非线性模型。

2.8 参数化模型与非参数化模型

参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而增大。

2.9 在线学习与批量学习

在线学习是指每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习。批量学习一次接受所有数据,学习模型,之后进行预测。

2.10 贝叶斯学习

贝叶斯的主要思想是:在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。

贝叶斯定理:
贝叶斯定理用用来假设某一事件A已经发生的情况下,反过来求该事件发生的概率。

2.11 核方法

核方法是使用核函数表示和学习非线性模型的一种机器学习方法,可以用于监督学习和无监督学习。

3. 方法三要素

机器学习的方法都是由模型、策略和算法三要素构成的,可以简单地表示为:方法 = 模型 + 策略 + 算法。

3.1 模型

在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。可以认为就是从X->Y空间的映射公式。其中决策函数表示的模型为非概率模型,条件概率对应的是概率模型。

假设空间

所有可能的决策函数或条件概率的集合就是这个模型的假设空间,机器学习的训练过程就是从假设空间中寻找最有的决策函数或条件概率分布函数。

3.2 策略

因为在假设空间中会有大量的备选的模型,那么如何从这个集合中选出最优的一个模型呢,这就是策略解决的问题。所谓策略描述的是我们采用什么方法来从假设空间中选出最优的模型。

损失函数

如果在假设空间F中选取模型f作为决策函数,对于给定的输入X,由f(X)给出相应的输出Y,这个输出的预测值f(X)与真实值Y可能一致也可能不一致,两者之间的差别用损失函数来描述。损失函数是预测值f(X)和实际值Y之间的非负实值函数,记作L(Y, f(X))。

常用的损失函数有:0-1损失函数,平方损失函数,绝对损失函数和对数损失函数

损失函数越小,模型就越好。

风险函数

理论上模型f(X)关于联合分布P(X, Y)的平均意义下的损失,成为风险函数或期望损失。

学习的目标就是选择期望风险最小的模型。期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。

经验风险最小化

在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定。经验风险最小化的策略认为经验风险最小的模型是最优的模型。

当模型是条件概率分布、损失函数是对数损失函数时,经验风险最小化就等于极大似然估计。

结构风险最小化

当样本容量很小时,经验风险最小化学习的效果未必很好,容易产生“过拟合”现象。结构风险最小化就是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化。结构风险在风险经验上加上表示模型复杂度的正则化项或罚项λJ(f)。

结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

3.3 算法

算法是指学习模型的具体计算方法。机器学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。

3.4 模型评估与模型选择

训练误差

训练误差是模型Y=f(X)关于训练数据集的平均损失。

测试误差

测试误差是模型Y=f(X)关于测试数据集的平均损失。

测试误差反映了学习方法对未知的测试数据集的预测能力,显然测试误差小的方法具有更好的预测能力,是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力

过拟合

根据训练数据集进行训练时,如果一味追求对训练数据的预测能力,所选的模型可能会比真模型更复杂。这是虽然模型对训练数据集有很好的预测能力,但对测试数据集或者实际使用的数据集的预测能力却可能很差。这种包含参数过多,比实际模型更复杂的情况称为过拟合。

在进行模型选择时,目标之一就是要避免过拟合并提高模型的预测能力。常用的模型选择方法有正则化与交叉验证

正则化

正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化的作用是选择经验风险与模型复杂度同时较小的模型,符合奥卡姆剃刀原理。

奥卡姆剃刀原理:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。

交叉验证

交叉验证的基本思想是重复地使用数据;把给定的数据进行切分,分成训练集、验证集和测试集。在此基础上反复地进行训练、测试以及模型选择。常用的交叉验证方法有:简单交叉验证、S折交叉验证和留一交叉验证。

简单交叉验证:首先随机地将已给数据集分为两部分,一部分作为训练集,另一部分作为测试集;然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。

S折交叉验证:首先随机地将已给数据切分为S个互不相交、大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。

留一交叉验证:顾名思义,留一交叉验证就是将数据分为N个子集,N-1个作为训练集,留一个作为测试集。是S折交叉验证的特殊情形。

3.5 泛化能力

泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。通常采用泛化误差来评价学习方法的泛化能力。

泛化误差

如果学到的模型是f,那么用这个模型对未知数据预测的误差即为泛化误差。事实上,泛化误差就是所学习到的模型的期望风险。

3.6 监督学习的应用

监督学习的应用主要有三个方面:分类问题、标注问题和回归问题。

分类问题

在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。常用的评价指标是精确率和召回率。首先了解几个标识:

  • TP :将正类预测为正类数;
  • FN : 将正类预测为负类数;
  • FP :将负类预测为正类数;
  • TN :将负类预测为负类数。

精确率是预测为正且正确的个数与所有预测为正的数量比值:P = TP / (TP + FP)

召回率是指预测为正且正确的数量与实际为正的总数量的比值:R = TP / (TP + FN)

实际上精确率和召回率都准确评价模型,通常使用F1值,该值是精确率和召回率的调和均值, F1 = 2TP / (2TP + FP + FN)

标注问题

标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。可以认为标注问题是分类问题的一个推广,只是分类序列更加复杂。

回归问题

回归用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。

参考资料

《统计学习方法(第2版)》 李航 著

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

翔底

您的鼓励将是我创作最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值