吃瓜教程-西瓜书和南瓜书-Chapter1&2

最新推荐文章于 2024-10-31 16:13:38 发布

灾祸之火

最新推荐文章于 2024-10-31 16:13:38 发布

阅读量245

点赞数

分类专栏：机器学习自学文章标签：机器学习

本文链接：https://blog.csdn.net/sime_gg/article/details/124832058

版权

机器学习自学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

第一章绪论

1.1 引言

1.机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。主要研究的内容是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。

1.2 基本术语

1.一组记录的集合称为一个“数据集”，其中每条记录是关于一个事件或对象的描述，称为一个“示例”或“样本”

2.反映事件或对象在某方面的表现或性质的事项称为“属性”或“特征”。

3.属性上的取值称为属性值。属性张成的空间称为“属性空间”、“样本空间”。

4.一般地，令D={x1,x2,...,xm}表示包含m个示例的数据集，每个示例由d个属性描述，则每个示例xi=(xi1;xi2;...;xid)是d维样本空间X中的一个向量，xi属于X，其中xij是xi在第j个属性上的取值，d称为样本xi的“维数”。

5.从数据中学习模型的过程，称为学习 learning 或训练 training。训练过程中，使用的数据集合，称为训练集 training data，其中的样本，称为训练样本 training sample。学得模型对应了数据中的潜在规律，称为假设 hypothesis。潜在规律的本身，称为真相 ground truth。学习的过程是为了找到或逼近真相。有时将模型称为学习器 learner，看做学习算法在给定数据和参数空间上的实例化。

6.预测的是离散值，此类任务称为分类 classification，预测的是连续值，此类任务称为回归 regression。使用带标记信息的示例。预测任务，通过对训练集进行学习，建立一个从输入空间到输出空间的映射。聚类 clustering，将训练集中的数据集自动划分为若干组，每组称为一个簇 cluster，训练样本通常是不拥有标记信息的。根据训练数据是否有标记信息，分为监督学习 supervised lerning和无监督学习 unsupervised learning，前者为分类和回归，后者为聚类。

7.学得模型适用于新样本的能力，称为泛化能力 generalization。通常假设样本空间中全体样本服从一个未知分布，获得的样本都是独立地从这个分布上采样获得的，即“独立同分布 independent and identically distributed”。一般而言，训练样本越多，得到关于的信息越多，就越有可能通过学习获得强泛化能力模型。

1.3 假设空间

归纳和演绎是科学推理的两大基本手段。

学习得过程可以看作是一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”的假设。

1.4 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好，称为“归纳偏好”。

“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，则选最简单的那个”

谈论算法的相对优劣，必须要针对具体的学习问题。

1.5 发展历程

略

1.6 应用现状

略

第二章模型评估与选择

2.1 经验误差与过拟合

m个样本中有a个样本分类错误，则错误率E=a/m；相应的， 1-a/m 称为"精度".把学习器的实际预测输出与样本的真实输出之间的差异称为“误差”。将学习器在训练集上的误差称为训练误差 training error，或经验误差 empirical error，在新样本上的误差称为泛化误差 generalization error。

过拟合(overfitting)是指学习器很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降；与过拟合相对的是欠拟合 (underfitting)，这是指对训练样本的一般性质尚未学好