一些简单、通俗易懂的机器学习术语

巧克力豆糕

已于 2024-01-02 11:36:41 修改

阅读量391

点赞数 11

文章标签：机器学习人工智能

于 2024-01-02 11:30:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/starssssssssss/article/details/135336636

版权

#这里是一些简单常见的机器学习的术语，我后续会发完整版机器学习内容的总结，这是一小部分，供大家参考#

机器学习的概念：

假设p用来评评估计算机程序在任务t上表现的性能，若利用经验e，程序在t上的表现的性能变好了，则说明程序对t进行了学习

样本：

一个数据集就是一堆样本的集合，数据集中的每一条都是一个样本。

特征：

指的就是样本的特点或属性

标签：

在有监督学习中，标签一般在数据集的最后一列，是对样本的一个分类。具体如下：

这里的样本就是编号为1-4的四个西瓜，特征就是西瓜的色泽、根蒂和敲声，标签就是这个西瓜是否是好瓜。

回归和分类任务：

若预测的是连续值，则是回归任务。用西瓜举例，预测西瓜的成熟度就是回归问题，若预测的值是离散值，则是分类任务，比如区分这个瓜是好瓜还是坏瓜，则是分类问题。

泛化能力：

训练后的模型在新样本上的适应能力

假设空间：

比如西瓜的色泽有绿和蓝两种取值，敲声有清脆和沉闷两种取值，还有情况就是西瓜的色泽或敲声取什么都合适的情况，用*表示，还有一种极端情况是根本没有好瓜这个概念，所有都属于一类则假设空间的大小就是：（2+1）×（2+1）+1=10种情况，其中第一个括号的2是绿和蓝两种情况，1是西瓜的色泽取什么都合适的情况（是*的情况），第二个括号的2是西瓜的敲声是清脆和沉闷两种情况，1是敲声取什么都合适的情况。最后一个1是上述的极端情况。

输出空间：

所有输出可能取值的集合

有监督学习：

用标记好的数据训练模型

无监督学习：

用没标记的数据训练模型

半监督学习：

因为很难搜寻到大量有标签的数据，只能搜寻到少量。因此，用少量带标签的数据和大量无标签的的数据进行训练

奥卡姆剃刀：

若有多个假设与观察一致，选择最简单的那个

正确率：

在m个样本中，有a个样本分类错误，则正确率为1-a/m

过拟合：

学习能力太过强大，以至于把训练样本自身的一些不太一般的特性都学到了，比如用树叶来训练模型，但是模型把一些特殊的树叶本身的性质当成了一般性质，比如有的树叶是带有锯齿的，机器就认为所有树叶都带有锯齿。过拟合无法彻底避免！！

欠拟合

学习能力较弱，学习不到训练样本的很多普遍的特性，训练的还不够，这个很好理解。

没有免费的午餐定理（NFL定理）：

脱离具体的实际问题，空谈哪个模型的性能好坏是没有意义的，每个模型都有其优缺点，因此我们要根据实际问题去判断选取哪个模型。

误差

指的就是预测值和真实值之间的差异，这个差异可以有好多指标来评判，比如mse（均方误差）、mae（平均绝对误差)、精确度、交叉熵等。对于不同的问题，选择的误差评判指标往往不同。

训练误差：

模型在训练集上的预测值和真实值之间的差异，训练误差可以显示出模型在训练集上的表现

测试误差：

同理，模型在测试集上的预测值和真实值之间的差异

验证误差：

如果将数据集分为训练集、测试集和验证集时，验证误差的定义同上；

泛化误差：

模型在从未见过的数据上的预测值和真实值之间的差异，泛化误差越小，模型的泛化能力就越好

巧克力豆糕

关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
一些简单、通俗易懂的机器学习术语

这里是一些简单常见的机器学习的术语，我后续会发完整版机器学习内容的总结，这是一小部分，供大家参考#
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。