机器学习初识概念

机器学习是关于在计算机上从数据中产生模型(mode)的算法,即学习算法(learning algorithm)

学得模型对应了关于数据的某种潜在的规律,因此亦称为假设(hypothesis);这种潜在规律自身,则成为真相真实(ground-truth);模型也可称为学习器(learner)

标记(label)是输出结果信息,所有标记的集合为标记空间输出空间(label space);若我们预测值是离散的,称为分类(classification);若预测值是连续值,则称此类学习任务为回归(regression).

根据训练数据是否拥有标记信息,可大致分为两大类:监督学习(supervised learning)和无监督学习(unsupervised learning).分类和回归是前者代表。聚类(clustering)为后者代表,聚类指的的是将训练集中的西瓜分成若干组,每组称为一个(cluster),在学习过程中使用的训练样本通常不拥有标记信息。

学得模型适应新样本的能力,称为泛化能力。通常假设样本空间中全体样本服从一个未知分布(distribution)D,我们获得的每个样本都是独立地从这个分布上采样获得地,即独立同分布(independent and identically distributed,简称i.i.d).训练样本越多,得到地关于D信息越多,越有可能获得地具有强泛化能力地模型。

我们可以把学习过程看作一个在所有假设(hypothesis)组成地空间中进行搜索地过程,搜索目标是找到与训练集匹配(fit)的假设,即能将训练集中判断正确的假设。可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,我们称之为版本空间(version space).

版本空间中选出合适的假设,便引入了归纳偏好,即机器学习在学习过程中对某种类型假设的偏好,称为归纳偏好(inductive bias).奥卡姆剃刀(Occam’s razor)是一种常见的、自然科学研究中最基本的原则,即若有多个假设与观察一致,则选择最简单的那个。事实上,归纳偏好对应了学习算法本身多做出的关于"什么样的模型更好"的假设。在具体的现实的问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多时候直接决定了算法能否取得好的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值