二、大数据与机器学习-机器学习基本概念-笔记

最新推荐文章于 2022-09-18 11:46:56 发布

火蓝棋

最新推荐文章于 2022-09-18 11:46:56 发布

阅读量390

点赞数

分类专栏：大数据机器学习-笔记

本文链接：https://blog.csdn.net/vmdchc/article/details/102554992

版权

大数据机器学习-笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一、基本术语

举例，我们有一些关于橘子和橙子的数据集合，这些记录的集合称为数据集。每条记录是关于一个橙或橘的描述，称为示例或样本。记录中的形状、剥皮、味道称为属性或特征。圆形、扁圆形、难、易、甜为为各自属性或特征的属性值。如果把形状、剥皮、味道设为三个坐标轴、那它们就构成一个描述橙或橘的属性空间或样本空间。每个橘或橙都可以在属性空间中找到自己的坐标位置，我们把每个示例也称为特征向量。

• Data set（数据集）

形状=圆形剥皮=难味道=酸甜

形状=扁圆形剥皮=易味道=酸

形状=长圆形剥皮=难味道=甜

• Instance/sample（示例或样本）

• Attribute value/feature（属性或特征）

• Attribute/feature space（属性空间或样本空间）

• Feature vector（特征向量）

设D为X1、X2到Xm的集合，也就是M个数据的数据集，每个示例XI是D维样本空间X的一个特征向量，d称为样本空间的维数，从数据中学得模型的过程称为学习或训练，这个过程通过某个学习算法来实现。训练过程中使用的数据称为训练数据，其中每个样本称为训练样本。训练样本组成的集合称为训练集，例如橙子或橘子称为标记，拥有了标记的信息的实例称为样例。

• D={x1 ,x2 ,……xm} m个示例的数据集

是d维样本空间X的一个特征向量

• training/learning （学习或训练）

• training data （训练数据）

• training sample （训练样本）

• Label ((形状=长圆形剥皮=难味道=甜), 橙子）（标记）

• example（样例）

机器学习的任务一般有以下几个类：

当预测或输出的值为离散值，此类学习任务称为分类问题，比如人脸识别，动作识别等

如果预测或输出的是连续值，此类学习任务称为回归，例如房价预测，股价预测等

对只涉及两个类别的分类问题为二分类任务，常见于是否问题，入划分是否是动物，肿瘤为良性或恶性，股票是涨或跌等，我们经常说的正例负例也是针对二分类问题。

涉及多个类别时为多分类任务，二分类和多分类都属于分类问题，因为二分类问题简单而广泛，因此单独列为一类问题。

聚类任务是将相似的示例归为一组，例如对文本数据集自动进行分组。

多标签标注问题，是对一个变量序列的输入获得一个变量序列的输出，多标签问题可以看成分类任务的一种扩展，例如图像识别，在分类任务上，会给出单个标签，例如猫，狗，天空，森林等，而多标签是给一张图像多个类别，例如实际图像可能既有天空、大海、又有行人房屋等，分类问题一般用于内容单一的图像，多标签则用于处理复杂场景的图像，也可用于图像检索等任务。

二、监督学习

定义：根据已有的数据集，知道输入和输出结果之间的关系，根据这种已知的关系，训练得到一个最优的模型。在监督学习中训练数据既有特征(feature)又有标签(label)，通过训练，让机器可以自己找到特征和标签之间的联系，在面对只有特征没有标签的数据时，可以判断出标签。

目的：学习一个由输入到出映射，称为模型
模型的集合：就是假设空间（ hypothesis space ）

模型分为：
概率模型 :条件概率分布 P(Y|X)，X条件下Y的概率和非概率模型
非概率模型：决策函数 Y=f(X) ，即决策函数Y等于f（x）联合概率分布

联合概率分布：假设输入与出的随机变量 X和Y遵循联合概率分布 P(X,Y) ，这为分布函数或分布密度函数。对于学习系统来说联合概率分布是未知的，训练数据和测试数据被看作是以联合概率分布分布 P(X,Y) 独立同分布产生的。监督学习的问题形式化输入的是训练数据，也就是样例，每个样例包含数据X和对应的Y标签

三、假设空间（hypothesis space）

学习过程：搜索所有假设空间，与训练集匹配的模型。所有模型的集合称为假设空间，而学习过程看作是一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的模型。
• 形状 =圆形剥皮 =难味道 =酸甜橙
• 形状 =扁圆形剥皮 =易味道 =酸橘
• 形状 =长圆形剥皮 =难味道 =甜橙

假设形状、剥皮、味道分别有 3，2，3 种可能取值，加上取任意值*和空集，那么假设空间规模 4x3x4+1=49，这样的空间规模大小有许多方法可以进行假设空间搜索，如自顶向下或自底向上，可能有多个假设与训练集一致，即存在一个与训练集一致的假设集合，我们称为版本空间（Version space）

四、学习三要素

方法=模型+策略+算法

一个学习方法主要包括模型、策略和优化算法。

当假设空间F为决策函数的集合，F实质上就是参数向量决定的函数族；当假设空间F为条件条件概率的集合，F实质上是参数向量决定的条件概率分布族。

策略

按照什么样的准则学习或选择最优的模型呢？我们引入损失函数和风险函数的概念。损失函数是指模型一次预测的好坏，而风险函数是指平均意义上模型预测的好坏。损失函数包括0-1损失函数、平方损失函数、绝对损失函数、对数损失函数（对数自然损失函数）。损失函数值越小，模型就越好。

损失函数的期望公式，这是理论上模型f（x）关于联合分布P（X,Y）的平均意义下的损失，我们称为风险函数或期望风险。公式中XY的联合概率是不知道的，如果知道的话我们就可以根据XY的联合概率直接求出x条件下y的概率。

经验风险是模型关于训练样本集的平均损失。一个自然的想法是用经验风险估计期望风险。

学习三要素中的方法是指从假设空间中选择最优的模型的过程，这就归纳为最优化问题。机器学习往往没有显示的解析解，而需要用数值计算的方法去求解，那么如何保证找到全局最优解呢而且高效呢？这是机器学习的难点。

五、奥卡姆剃刀定理

原意是剔除不必要的纷争。如图对有限个样本点组成的训练集存在很多曲线与其一致，入曲线A和B、根据奥卡姆剃刀原理我们选择更简单的曲线A作为模型。

六、没有免费的午餐定理

然而，奥卡姆剃刀原理并非是唯一可行的原则。例如上图疑问一中哪个版本空间更简单？似乎并不好选择。疑问二，训练数据学习到的两条曲线A和B那条更优呢？当测试样本点也就是图中圆圈所表示的点在A图和B图中出险在不一样的位置时，左图中A更优，右图B曲线更优。也就是说根据实际测试的数据，这样两个模型各自由自身的优势，而这种情况是很可能出现的，这就是我们所说的没有免费午餐定理。

没有免费的午餐定理是指一个学习算法A若它在某个问题上比另一个学习算法B好，则必然存在另一些问题B比A好。假设样本空间X和假设空间H都是离散的，我们令X、Za条件下h的概率代表算法，Za基于训练数据X产生假设h的概率，再令f代表我们希望学习的真实的目标函数，Za的训练集外误差，即在训练集之外的所有样本上的误差为上述"训练集外误差"的公式所示。

我们对二分类问题推导出来的总的误差结果，最终结果只包含了X的概率和总的数据集大小这两个变量。即总误差与学习算法无关。

七、训练误差和测试误差

假设我们有训练样本集T，我们的假设空间为一个X的M次多项式，我们求在经验风险最小时每个wj的取值，从而确定整个模型。

我们可以用解析的方法直接求取，这里我们具体用sin（2πx），也就是绿色的曲线，并加入一定的噪声信号去产生样本点。然后分别对M次多项式取不同的M值，分别为1,3,9这样就得到红色拟合曲线。我们可以看到当M为9时，曲线对训练集有最好的拟合。

然后当我们加入测试样本点进行测试时，我们对训练集的损失进行求取，我们发现测试集的平均损失比训练集的平均损失要高。尤其在M=9时候，测试集的损失有很大提升，虽然训练集损失为0，我们把这种情况称为过拟合。它指学习时选择的模型过于复杂或包含的参数过多，以至于出现这一模型对已知数据预测的很好，但是对未知数据预测得很差的现象。

把上述图形一般化得到训练误差和测试误差随模型复杂度变化的曲线。测试误差在选取某个模型复杂度时得到最小值。随着模型复杂度增大，虽然训练误差减小，但测试误差会增大。

如何解决这个问题呢，我们依然采用九次多项式进行联合，左图训练样本集大小为15，右图训练样本集大小为100，而后者获得了更好的近似效果。也就是说当模型较复杂时，我们可以采用增加训练样本集大小的方式去减小泛化误差。正对泛化误差的另一种方法就是采用正则化的方法。

八、正则化

在目标函数的前一项集经验风险基础上增加一个正则化项或罚项，一般是模型参数向量的范数。针对回归问题，正则化可以是模型参数向量的二范数也可以试一范数，λA大于等于0是调整二者之间关系的系数。我们看到加入正则化项后模型变化性能，正对七中的例子，当M为9时，当λ取lnλ等于-18时，模型在很少的训练数据集上就或得了很好的性能。当λ等于0时，模型退化为一条直线，因为λ增大是的模型参数受到很大的抑制，从而模型变得更简单。

我们看加入正则化项后模型参数取值变化。没有加入正则haul项时，M=9左侧图的最右边一列参数值很大，这就容易造成过拟合，当加入正则化项以后，并且λ逐渐增大时，参数值不断变小，从而抑制模型的过拟合现象。

九、泛化能力

模型泛化能力是指由该方法学习到的模型对未知数据的预测能力，是学习方法的本质属性，其评价主要通过测试误差来来推测，可是由于测试集是有限的，而且是有差异的，因此我们希望从理论上用泛化误差进行评价。

上述第一个不等式中，R(f)<=R-current(f)+误差项;其中误差项为训练数据集大小n，假设空间集合大小d和设定概率δ的函数，公式告诉我们当训练集越大，假设空间越小，δ越大。

十、生成模型与判别模型

监督学习方法分为生成方法与判别方法，分别对应生成模型与判别模型。生成模型是指模型为决策函数或条件概率分布。生成模型是由数据学习联合概率模型pxY然后求出条件概率，生成方法包括朴素贝叶斯方法和隐马尔可夫模型等。判别模型直接求取决策函数，或条件概率分布，判别方法有K近邻，感知机、决策树、logistic回归等。