【机器学习】啃“瓜”笔记001：啃“西瓜书+南瓜书”——第1章绪论

Chuckie今天也要学习！

已于 2022-07-13 00:11:22 修改

阅读量1k

点赞数 3

分类专栏： # 啃“西瓜书+南瓜书”内容文章标签：机器学习人工智能

于 2022-07-12 02:03:29 首次发布

本文链接：https://blog.csdn.net/qq_46343832/article/details/125731176

版权

啃“西瓜书+南瓜书”内容专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章目录

🌲啃"瓜One"——绪论

🌲啃"瓜One"——绪论

🔅1.1 前言

本篇文章用于记录啃“瓜”的第1章绪论部分，整个篇幅依据于原版的周志华老师著作的西瓜书内容。文章记录仅作用于后续的复习和回顾，如有错误，请君不吝告知，不胜感激。

🏃1.1.1 机器学习🏃

解释：通过计算手段，从数据中学习规律，以改善系统自身的性能
研究内容：在计算机中，从数据中产生模型的算法，即“学习算法”

🏃1.1.2 深度学习🏃

解释：机器学习研究中的分支，更进一步表示为“神经网络”分支的进一步研究

🔅1.2基本术语

🏃1.2.1 数据🏃

☀️数据集

解释: 包含有针对某个应用场景所采集的全部数据，如西瓜数据集、莺尾花数据集等等
数学符号表示： $D=\{\boldsymbol{x_1}, \boldsymbol{x_2}, ..., \boldsymbol{x_m}\}$ ,其中 $m$ 表示有数据量

☀️样本

解释： 数据集中的每一条记录，是对一个对象或者事件的描述，如数据集中的 $\boldsymbol{x_i}$ 表示第 $i$ 个样本
别称： 示例

☀️特征

解释: 反映对象或者事件在某方面的表现或者性质，通俗解释就是采集的数据对象所拥有的特征
举例： 🍉西瓜数据集中每个样本有3个特征，分别为“色泽、根蒂以及敲声”,这3个特征表示西瓜的独有属性
符号表示： $\boldsymbol{x_i}=(x_{i1};x_{i2};...x_{ij}...;x_{id})$ 表示样本 $\boldsymbol{x_i}$ 的 $d$ 个属性，其中 $x_{ij}$ 表示样本 $\boldsymbol{x_i}$ 的第 $j$ 个属性
别称： 属性

☀️特征值

解释： 每一个特征进行具体的取值
举例： 还是🍉数据集， $x_{i1}=$ 青绿，表示样本 $\boldsymbol{x_i}$ 的第1个属性"色泽"对应的属性值为青绿，依次类比其他属性值也是如此
别称： 属性值

☀️样本空间

解释： 属性张成的空间称为“样本空间”，简单理解为:样本所具有的特征表示维度，所有维度构成样本空间,符号表示为 $\boldsymbol{\mathcal{X}}$
特征向量： 样本空间中每一个坐标向量，即每一个样本，符号表示为 $\boldsymbol{x_i}=(x_{i1};x_{i2};...x_{ij}...;x_{id})$
别称： 属性空间或者输入空间

🏃1.2.2 训练🏃

训练数据： 训练过程中使用的数据(数据集)，其中每一个样本称为“训练样本”
训练集： 由所有"训练样本"构成的数据集
假设： 数据中存在的某种规律，这种规律本身即为“真相”或者“真实”，比如🍉数据集中，假设色泽=青绿、根蒂=蜷缩、敲声=浊响属于好瓜
学习过程或训练过程： 利用已有的数据集，通过不断训练模型(或称为“学习器”)，使得模型能不断找出或逼近真相

🏃1.2.3 预测🏃

标记： 表示样本的结果信息，如好瓜、坏瓜
样例： 拥有标记信息的样本称为"样例",若将标记看作为对象本身的一部分，则"样例"=“样本”
- 符号表示： 使用 $(\boldsymbol{x_i}, y_i)$ 表示第 $i$ 个样例，其中 $y_i \in \boldsymbol{\mathcal{Y}}$ , $\boldsymbol{\mathcal{Y}}$ 表示所有标记的集合(标记空间或者样本空间)
测试样本： 被预测的样本

🏃1.2.4 学习任务🏃

ML中主要包含有两类学习Mask：监督学习、无监督学习

☀️监督学习

监督学习中包含有分类和回归
分类任务
- 解释： 模型预测的为离散值，例如“好瓜”、“坏瓜”
- 类型： 二分类任务、多分类任务
回归任务
- 解释： 模型预测的为连续值，如西瓜成熟度0.95、0.37

☀️无监督学习

无监督学习中包含有聚类

☀️补充说明

泛化： 学得的模型适用新样本的能力，这也是生成或优化模型的方向
独立同分布： 假设样本空间服从一个未知"分布" $D$ ,"喂"进模型的数据都是独立的从这个分布中获取

🔅1.3假设空间

☀️演绎

解释： 从一般到特殊的"特化"，即从基本原理推演出具体状况，如数学中从公里到定理的推导过程

☀️归纳

解释： 从特殊到一般的"泛化"，即从具体的事实归纳出一般性规律，如ML中主流技术"从样例中学习"显然是归纳过程(归纳过程称为"归纳学习")
归纳学习
- 广义解释： 类似于从“从样例中学习”
- 狭义解释： 从训练数据中学得概念，因此也称为“概念学习"或者"概念形成”

☀️其他内容

假设空间： 样本特征所有的可能性取值的组合
学习过程的另一种解释： 在所有的假设组成的空间(即，假设空间)中进行搜索的过程，搜索与训练集"匹配"的假设，即能够将训练集中的瓜判断正确的假设
搜索过程： 删除与正例不一致的假设(或与反例一致的假设 )
版本空间： 在搜索过程中，存在着多个假设与训练集一致，由所有满足条件的假设组成的"假设集合，即为"版本空间"
举例"版本空间"

🔅1.4归纳偏好

❄️1.4.1背景❄️

通过学习过程，我们获得针对某个问题的版本空间，而版本空间中可能存在多个假设，我们该如何选择最优的假设（或模型）呢？

❄️1.4.2 归纳偏好❄️

定义： 机器学习算法在学习过程中对某种类型假设的偏好(或重视度)，称为"归纳偏好"或"偏好"
特性： 任何有效的机器学习算法必有其"自身的归纳偏好"，否则会由于"等效假设"原因，模型无法产生正确的学习结果
进一步理解： "归纳偏好"是学习算法自身在可能庞大的假设空间中对假设进行选择的启发性和价值观
注意： "归纳偏好"依赖于某种领域知识，而非特征选择(注：特征选择，基于训练样本的分析确定重视哪一种特征)
“归纳偏好” = 学习算法自身所做出的关于"什么样的模型更好"的假设

❄️1.4.3 奥尔姆剃刀❄️

应用背景： 我们希望找到一个一般性原则，引导学习算法确定“正确性"的"归纳偏好”
解释： 若有多个假设与观察一致，则选择最简单的那个
问题： 这个最简单该如何衡量呢？

❄️1.4.4 "没有免费午餐"定理( $N F L$ 定理)❄️

在这里插入图片描述

结论： 学习算法 $\mathcal{L}_a、\mathcal{L}_a$ 基于不同归纳偏好分别产生的曲线 $A$ 和曲线 $B$ ，在某些问题中(图a)学习算法 $\mathcal{L}_a$ 要比学习算法 $\mathcal{L}_b$ 好，但必然存在，在那里（理解为其他的数据域，即问题情景中） $\mathcal{L}_a$ 要比 $\mathcal{L}_b$ 好，该结论适用于所有的算法
$N F L$ 定理证明：
- 证明的过程参考南瓜书讲解，初学也建议跳过，等学完后面获取先验知识，在回顾头来学习
- **学习算法 $\mathcal{L}_a$ **在训练集 $\boldsymbol{X}$ 外的所有样本的误差为：
  
  其中 $\boldsymbol{\mathcal{X}}$ 表示样本空间， $h$ 表示满足训练集 $\boldsymbol{X}$ 的假设
- 考虑二分类问题，所有可能真实目标函数 $f$ (满足： $\boldsymbol{\mathcal{X}} \mapsto \{0，1\}$ )按均匀分布对误差求和，有
- 可以发现，总误差与学习算法无关！也就是不考虑学习算法 $\mathcal{L}$ 的性能和偏好，它们的期望性能相同！
$N F L$ 定理前提：
- 所有的"问题"出现的机会相同，或所有的"问题"具有相同的重要性
总结： 关于"什么样的模型更好"的问题，我们不能泛泛而谈，要具体问题具体分析