一些简单、通俗易懂的机器学习术语

#这里是一些简单常见的机器学习的术语,我后续会发完整版机器学习内容的总结,这是一小部分,供大家参考# 

机器学习的概念:

假设p用来评评估计算机程序在任务t上表现的性能,若利用经验e,程序在t上的表现的性能变好了,则说明程序对t进行了学习

样本:

一个数据集就是一堆样本的集合,数据集中的每一条都是一个样本。

特征:

指的就是样本的特点或属性

标签:

在有监督学习中,标签一般在数据集的最后一列,是对样本的一个分类。具体如下:

这里的样本就是编号为1-4的四个西瓜,特征就是西瓜的色泽、根蒂和敲声,标签就是这个西瓜是否是好瓜。

回归和分类任务:

若预测的是连续值,则是回归任务。用西瓜举例,预测西瓜的成熟度就是回归问题,若预测的值是离散值,则是分类任务,比如区分这个瓜是好瓜还是坏瓜,则是分类问题。

泛化能力:

训练后的模型在新样本上的适应能力

假设空间:

比如西瓜的色泽有绿和蓝两种取值,敲声有清脆和沉闷两种取值,还有情况就是西瓜的色泽或敲声取什么都合适的情况,用*表示,还有一种极端情况是根本没有好瓜这个概念,所有都属于一类则假设空间的大小就是:(2+1)×(2+1)+1=10种情况,其中第一个括号的2是绿和蓝两种情况,1是西瓜的色泽取什么都合适的情况(是*的情况),第二个括号的2是西瓜的敲声是清脆和沉闷两种情况,1是敲声取什么都合适的情况。最后一个1是上述的极端情况。

输出空间:

所有输出可能取值的集合

有监督学习:

用标记好的数据训练模型

无监督学习:

用没标记的数据训练模型

半监督学习:

因为很难搜寻到大量有标签的数据,只能搜寻到少量。因此,用少量带标签的数据和大量无标签的的数据进行训练

奥卡姆剃刀:

若有多个假设与观察一致,选择最简单的那个

正确率:

在m个样本中,有a个样本分类错误,则正确率为1-a/m

过拟合:

学习能力太过强大,以至于把训练样本自身的一些不太一般的特性都学到了,比如用树叶来训练模型,但是模型把一些特殊的树叶本身的性质当成了一般性质,比如有的树叶是带有锯齿的,机器就认为所有树叶都带有锯齿。过拟合无法彻底避免!!

欠拟合

学习能力较弱,学习不到训练样本的很多普遍的特性,训练的还不够,这个很好理解。

没有免费的午餐定理(NFL定理):

脱离具体的实际问题,空谈哪个模型的性能好坏是没有意义的,每个模型都有其优缺点,因此我们要根据实际问题去判断选取哪个模型。

误差

指的就是预测值和真实值之间的差异,这个差异可以有好多指标来评判,比如mse(均方误差)、mae(平均绝对误差)、精确度、交叉熵等。对于不同的问题,选择的误差评判指标往往不同。

训练误差:

模型在训练集上的预测值和真实值之间的差异,训练误差可以显示出模型在训练集上的表现

测试误差:

同理,模型在测试集上的预测值和真实值之间的差异

验证误差:

如果将数据集分为训练集、测试集和验证集时,验证误差的定义同上;

泛化误差:

模型在从未见过的数据上的预测值和真实值之间的差异,泛化误差越小,模型的泛化能力就越好

  • 11
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值