机器学习初识概念

最新推荐文章于 2022-07-11 12:51:38 发布

不正经的蒙娜丽莎

最新推荐文章于 2022-07-11 12:51:38 发布

阅读量191

点赞数 1

分类专栏： machineLearning 文章标签：机器学习

本文链接：https://blog.csdn.net/samuelzhoudev/article/details/108814595

版权

machineLearning 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

机器学习是关于在计算机上从数据中产生模型(mode)的算法，即学习算法（learning algorithm）

学得模型对应了关于数据的某种潜在的规律，因此亦称为假设(hypothesis)；这种潜在规律自身，则成为真相或真实(ground-truth)；模型也可称为学习器(learner)

标记(label)是输出结果信息，所有标记的集合为标记空间或输出空间(label space);若我们预测值是离散的，称为分类(classification)；若预测值是连续值，则称此类学习任务为回归(regression).

根据训练数据是否拥有标记信息，可大致分为两大类：监督学习(supervised learning)和无监督学习(unsupervised learning).分类和回归是前者代表。聚类(clustering)为后者代表,聚类指的的是将训练集中的西瓜分成若干组，每组称为一个簇(cluster),在学习过程中使用的训练样本通常不拥有标记信息。

学得模型适应新样本的能力，称为泛化能力。通常假设样本空间中全体样本服从一个未知分布(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得地，即独立同分布(independent and identically distributed,简称i.i.d).训练样本越多，得到地关于D信息越多，越有可能获得地具有强泛化能力地模型。

我们可以把学习过程看作一个在所有假设（hypothesis）组成地空间中进行搜索地过程，搜索目标是找到与训练集匹配(fit)的假设，即能将训练集中判断正确的假设。可能有多个假设与训练集一致，即存在着一个与训练集一致的假设集合，我们称之为版本空间(version space).

版本空间中选出合适的假设，便引入了归纳偏好，即机器学习在学习过程中对某种类型假设的偏好，称为归纳偏好（inductive bias）.奥卡姆剃刀（Occam’s razor）是一种常见的、自然科学研究中最基本的原则，即若有多个假设与观察一致，则选择最简单的那个。事实上，归纳偏好对应了学习算法本身多做出的关于"什么样的模型更好"的假设。在具体的现实的问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身匹配，大多时候直接决定了算法能否取得好的性能。