机器学习（一）基本概念

**星光*

已于 2022-03-12 10:29:59 修改

阅读量1k

点赞数

分类专栏：机器学习 # 算法 python 文章标签：机器学习人工智能

于 2022-03-12 10:28:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42322206/article/details/123438927

版权

python 同时被 3 个专栏收录

80 篇文章 4 订阅

订阅专栏

7 篇文章 1 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

什么是（监督式）机器学习

机器学习系统通过学习如何组合输入信息来对从未见过的数据做出有用的预测。

机器学习的基本术语.

eg：我们从市场上挑了很多芒果。

特征

特征是输入变量，即简单线性回归中的 x变量。(如芒果的大小，颜色，产地，品牌等)，简单的机器学习项目可能会使用单个特征，而比较复杂的机器学习项目可能会使用数百万个特征，按如下方式指定：x1,x2,…xn

标签

标签是我们要预测的事物，即简单线性回归中的 y 变量。标签可以是连续值(如芒果的甜度，水分)，可以是离散值（芒果的价格，或好坏）

样本

样本/观测是指数据的特定实例x。我们采用粗体 x 表示它是一个矢量（样本包括训练集和测试集）

样本分类

有标签样本同时包含特征和标签 labeled examples: {features, label}: (x, y)
无标签样本包含特征，但不包含标签。即：unlabeled examples: {features, ?}: (x, ?)

在使用有标签样本训练模型之后，我们会使用该模型预测无标签样本的标签

模型

模型定义了特征与标签之间的关系，模型生命周期的两个阶段

训练是指创建或学习模型。也就是说，向模型展示有标签样本，让模型逐渐学习特征与标签之间的关系。
推断是指将训练后的模型应用于无标签样本。也就是说，使用经过训练的模型做出有用的预测 (y)。

回归与分类

回归模型可预测连续值。例如，回归模型做出的预测可回答如下问题：

加利福尼亚州一栋房产的价值是多少？
用户点击此广告的概率是多少？

分类模型可预测离散值。例如，分类模型做出的预测可回答如下问题：

某个指定电子邮件是垃圾邮件还是非垃圾邮件？
这是一张狗、猫还是仓鼠图片？

泛化与过拟合

通过数据学得模型的过程就是我们常说的学习learning，也称为训练training。希望学得的模型能很好的认识新的事物，这种能力，我们称为泛化（generalization）。一般来说，训练样本越多，模型的泛化能力越好。有时候太过认真的认识已有的事物，会造成无法判断其他草莓甜不甜的状况，这种情况，我们称为过拟合(overfitting)。

泛化误差

经验风险的表达式
其中，L(Y,f(X))叫做损失函数，它是用来量化真实结果Y和预测结果f(X)的区别大小的。
评价一个预测算法的优劣，标准无非就是比较预测结果和真实结果的差别，差别越小，这个算法性能就越好，

交叉验证

为了避免过拟合的问题，交叉验证把训练数据分成了训练集和测试集，用训练集来训练学习算法，再用测试集来验证学习算法，每次都从候选的学习算法集合中选择一个算法，进行学习和测试，最后比较所有算法的测试结果，选择最优的算法

特征选择

泛化误差和交叉验证为我们选择合适的学习算法提供了相应的策略，而特征选择则可以使我们在一定程度上优化数据。前向搜索和过滤特征选择

假设样本的维度n非差大，而每一个维度都代表了一个表征这个数据的特征。当数据的特征非常多时，我们就需要通过某种方式来过滤掉一些冗余的特征，提高数据的质量，这就是特征选择的目的。

参考：什么是特征、标签、训练、过拟合、泛化？

泛化误差，交叉验证和特征选择

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习（一）基本概念

机器学习的基本术语
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

**星光*

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。