机器学习——绪论

canlander

于 2024-07-05 10:01:04 发布

阅读量246

点赞数 3

分类专栏：机器学习——基于西瓜书的学习笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/canlander/article/details/136329327

版权

机器学习——基于西瓜书的学习笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

机器学习：取代人类基于经验做出的判断

核心：研究如何通过计算的手段，利用经验来改善系统自身的性能

计算机+数据——产生模型算法，即“学习算法”——产生模型——进行经验预测

一些基本术语：

数据(Data)：一批关于某物体的信息。
数据集 (Dataset)：关于物体的信息记录的集合。
样本：关于物体的一组记录（数据）。
属性：反映对象在某方面的性质的事项。
属性值：上述事项的取值。
属性空间（样本空间）：属性们的集合。
学习（训练）：从数据中学得模型的过程。
训练数据：训练模型过程中使用的数据。
训练样本：训练模型过程中使用的每一个样本。
训练集：所有训练样本得集合。
假设：学得模型对应了关于数据的某种潜在的规律，称为“假设”。
真实（真相）：真实存在的潜在规律自身。

学习过程就是为了找出或逼近真相

模型：学习算法在给定数据和参数空间上的实例化。
标记：关于示例结果的信息。
标记空间：标记的集合。

预测离散值——做判断——分类任务

预测连续值——做程度分析——回归任务：二分类，多分类任务等

划分潜在概念——学习潜在规律——聚类

测试：使用学习好的模型进行预测的过程。
测试样本：测试过程中被预测的样本。

监督学习：分类和回归任务（事先知道学习目标和效果）

无监督学习：聚类任务（事先不知道，一切看结果）

根据训练数据是否拥有标记信息划分

机器学习的目标：使学得的模型能更好的适用于新样本，而不只适用于训练样本。

泛化能力：模型适用于新样本的能力。越强越好。
独立同分布：采样要求。样本之间采集互不干扰，且符合相同的样本分步条件。

归纳：从特殊到一般的泛化过程——从具体的事实归结出一般性规律。

演绎：从一般到特殊的泛化过程——出基础原理推演出具体状况。

假设空间：所有可能假设组成的集合

学习过程：在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设。

也就是说将所有可能的潜在规则列出来，进行搜索筛选，最终留下来的符合训练集的描述的假设就是真相。

版本空间：假设空间中满足训练集要求的“假设集合”
偏好：选择偏好
归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好

看似奇怪，实则必须。任何一个有效的学习模型必须具有偏好，否则会被相似选项迷惑，无法产生确定的学习效果

归纳偏好是机器学习模型的“价值观”，决定了模型算法的性能

无偏好，见下文NFL（所有问题同等重要）

（偏好选择）奥卡姆剃刀原则：若有多个假设与观察一致，则选最简单的那一个。

没有免费的午餐定理（No Free Lunch, NFL）：如果所有问题出现的机会相同，则学习算法的期望性能完全相同，约等于随机乱猜——脱离具体问题，空泛的谈“什么学习算法更好”毫无意义。

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。