「吃瓜记」第1章绪论

最新推荐文章于 2024-11-18 00:00:00 发布

秀球Gang

最新推荐文章于 2024-11-18 00:00:00 发布

阅读量92

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43401035/article/details/118712848

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

「吃瓜记」第1章绪论

1.1 引言
1.2 基本术语
1.3 假设空间
1.4 归纳偏好
参考资料

1.1 引言

机器学习(machine learning)是什么？

定义：机器学习是致力于研究如何通过计算的手段，利用经验（数据）来改善系统自身的性能的学科。

研究的主要内容：是从数据中产生“模型”的算法，即”学习算法“(learn algorithm)。

目标：使学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好。

1.2 基本术语

示例/样本 sample：数据集中的每条记录是关于一个事件或对象的描述。

特征向量 feature vector: 由于空间中的每个点对应一个坐标向量，一个示例用向量表示。

属性/特征 feature：反映事件或对象在某方面的表现或性质的事项。

属性空间/样本空间/输入空间 attribute/sample space：属性张成的空间。

维数 dimensionality：样本的属性个数。

学习/训练 training：从数据中学得模型的过程。

假设 hypothesis：模型对应了数据的某种潜在的规律。

标记 label：示例结果的信息。

样例 example：拥有了标记信息的示例。

根据预测结果的类型，可以将机器学习任务分为两类：

分类 classification：预测结果的类型是离散值。包含二分类(binary classification)和多分类(multi-class classification)。
回归 regression：预测结果的类型是连续值。

根据训练数据是否拥有标记信息，学习任务也可大致划分为两大类：

监督学习 supervised learning：训练数据有标记信息，包括分类和回归等。
无监督学习 unsupervised learning：训练数据没有标记信息，代表有聚类。

泛化 generalization：适用于新样本的能力。具有强泛化能力的模型能很好地适用于整个样本空间。

1.3 假设空间

归纳 induction：从特殊到一般的“泛化”过程，即从具体的事实归结出一般性规律。

演绎 deduction：从一般到特殊的“特化”(specialization)过程，即从基础原理推演出具体状况。

归纳学习 inductive learning：从样例中学习。

我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集“匹配”(fit)的假设。

版本空间 version space：可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”。

1.4 归纳偏好

归纳偏好/偏好 inductive bias：机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”的假设所迷惑，无法产生确定的学习结果。

有没有一般性的原则来引导算法确立“正确”的偏好？

奥卡姆剃刀 Occam’s razor：自然科学研究中的最基本原则。若有多个假设与观察一致，则选最简单的那个。原话为：

Do not multiply entities beyond necessity.

如无必要，勿增实体。

参考资料

机器学习，周志华，清华大学出版社

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

秀球Gang 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。