Task1

最新推荐文章于 2024-09-13 19:41:31 发布

Alberto233

最新推荐文章于 2024-09-13 19:41:31 发布

阅读量67

点赞数

分类专栏：西瓜书文章标签： python

本文链接：https://blog.csdn.net/Alberto233/article/details/131860666

版权

西瓜书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Task1

第一章

`样本`:

关于一个事件或对象的描述。使用特征对其进行描述，如：x =
(青绿; 蜷缩; 清脆) （向量中的元素用分号“;”分隔时表示此向量为列向量，用逗号“,”分隔时表示为行向量）。
描述时还需要扩展更多维度的特征，一般称此类与特征处理相关的工作为
“特征工程”。

`样本空间`：

表示样本的特征向量所在
的空间为样本空间，通常用花式大写的 X 表示。

`数据集`:

假设此数据集中的每个样本都含有 d 个特征，则第 i
个样本的数学表示为 d 维向量：xi = (xi1; xi2; …; xid)，其中 xij 表示样本 xi 在第 j 个属性上的取值。

`模型`：

'机器学习的一般流程如下：首先收集若干样本（假设此时有 100 个），然后将其分为训练样本
（80 个）和测试样本（20 个），其中 80 个训练样本构成的集合称为“训练集”，20 个测试样本构成的集合
称为“测试集”，接着选用某个机器学习算法，让其在训练集上进行“学习”（或称为“训练”），然后产出
得到“模型”（或称为“学习器”），最后用测试集来测试模型的效果。
使用不同的参数配置或者不同的训练集，训练得到的模型通常都不同。

`标记：`

第 i 个样本的
标记的数学表示为 yi，标记所在的空间称为“标记空间”或“输出空间”，数学表示为花式大写的 Y。标
记通常也看作为样本的一部分，因此，一个完整的样本通常表示为 (x, y)。

根据标记的取值类型不同

机器学习任务分为以下两类：当标记取值为离散型时，称此类任务为“分类”;当标记取值为连续型时，称此类任务为“回归”。

根据是否有用到标记信息

可将机器学习任务分为以下两类：
在模型训练阶段有用到标记信息时，称此类任务为“监督学习”，例如第 3 章的线性模型；
在模型训练阶段没用到标记信息时，称此类任务为“无监督学习”，例如第 9 章的聚类。

`泛化`:

此对未知事物判断的准确与否才是衡量一个模型好坏的关键，我们称此为“泛化”能力
在这里插入图片描述

`分布`

假设样本空间服从一个未知“分布”D，而我们收集到的每个样本都是独立地从该分布中采样得到，即“独立同分布”。通常收集到的样本越多，越能从样本中反推出 D 的信息，即越接近真相。

`假设空间`

年份	学校数量	房价
2020	1 所	1 万/m2
2021	2 所	4 万/m2

例如：若将学校数
量设为 x，房价设为 y，则该假设等价表示学校数量和房价呈 y = wx + b 的一元一次函数关系，此时房价预测问题的假设空间即为“一元一次函数”。
所有能够拟合训练集的模型构成的集合称为“版本空间”。
在这里插入图片描述

第二章模型评估与选择

`经验误差与过拟合`

错误率： $E=\frac{a}{m}$ ，其中 m 为样本个数，a 为分类错误样本个数。

精度：精度 =1-错误率。

误差：学习器的实际预测输出与样本的真实输出之间的差异。

经验误差：学习器在训练集上的误差，又称为“训练误差”。

泛化误差：学习器在新样本上的误差。

过拟合是由于模型的学习能力相对于数据来说过于强大，反过来说，欠拟合是因为模型的学习能力相对于数据来说过于低下。

`经验误差与过拟合`

算法参数是指算法本身的一些参数（也称超参数），例如 k 近邻的近邻个数 k、支持向量机的参数 C。算法配置好相应参数后进行训练，训练结束会得到一个模型，例如支
持向量机最终会得到 w 和 b 的具体数值（此处不考虑核函数），这就是模型参数。

`从数据集中获取测试集和训练集的常用方法有：`

留出法（Holdout Method）：将原始数据集分成两个互斥的集合，一个子集作为训练集，另一个子集作为测试集，常用的比例是7:3或8:2。这种方法简单直观，但若原始数据集分布的不均匀，则不能保证所挑选的训练集与测试集的分布一致。
交叉验证法（Cross Validation）：将原始数据分成k个子集，一个子集作为测试集，其他子集作为训练集，将该方法重复k次，每次选用不同的子集作为测试集，取平均值作为最后的评估结果。这种方法相对于留出法能充分利用数据，但是相对于留出法，交叉验证的计算量较大。
假定数据集D中包含m个样本，若令k=m，则得到了交叉验证法的一个特例：留一法（Leave-One-Out，简称LOO）.显然，留一法不受随机样本划分方式的影响。
自助法（Bootstrap）：自助法是一种有放回随机采样方法，每次采样得到的数据集都和原始数据集大小相同，若原始数据集中含有m个样本，每次取一个样本，那么在m次采样后会产生m个采样集，其中一些样本在训练集中会重复出现。这种方法可处理小样本数据以及不易划分的数据集，但也会产生一些样本的重复样本，这可能影响到模型的准确性。

`调参`

现实中常用的做法，是对每个参数选定一个范围和变化步长，例如在[0，0.2]范围内以0.05为步长，则实际要评估的候选参数值有5个，最终是从这5个候选值中产生选定值。

给定包含m个样本的数据集D，在模型评估与选择过程中由于需要留出一部分数据进行评估测试，事实上我们只使用了一部分数据训练模型.因此，在模型选择完成后，学习算法和参数配置已选定，此时应该用数据集D重新训练模型.这个模型在训练过程中使用了所有m个样本，这才是我们最终提交给用户的模型.

`性能度量`

对学习器的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量（performance measure）.
性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果；这意味着模型的“好坏”是相对的，什么样的模型是好的，不仅取决于算法和数据，还决定于任务需求.
在这里插入图片描述