鹅的学习日记 22/6/3

不在南极的企鹅大王

已于 2022-06-07 11:08:45 修改

阅读量360

点赞数

文章标签：概率论机器学习人工智能

于 2022-06-03 18:29:23 首次发布

本文链接：https://blog.csdn.net/m0_48317295/article/details/125094314

版权

文章目录

前言
一、关于概率的基本概念
二、机器学习定义
三、机器学习类型
四、机器学习四要素
五、泛化与正则化
六、线性回归
七、模型选择与“偏差-方差”分解
八、常用定理
八、传统特征学习
总结

前言

这篇笔记写的是《神经网络与深度学习》的第二章，第二章的知识有些晦涩难懂，而且这是一篇学习笔记，必然不能只是为了发出来而发出来，所以不能说完全明白，也要说差不多才能算学会。因此，不会每天都发，但肯定是会发的。

一、关于概率的基本概念

首先是关于概率的一些基本概念，机器学习中很多地方都需要用到它们。
概率：一个随机事件发生的可能性大小，为0到1的实数。0为不可能发生，1为必定发生。
随机变量：在随机事件上能定义很多随机变量，掷骰子是一个随机事件，点数可以是一个随机变量，可以取{1，2，3，4，5，6}；大小也可以是随机变量，1-3为小，4-6为大，取值为{大，小}。
概率分布：一个随机变量X取每种可能值的概率。概率分布满足条件：每个概率都大于等于0，且相加为1。
此外，随机变量，根据取值的类型不同，分为离散随机变量和连续随机变量。
离散随机变量有伯努利分布和二项分布等。

伯努利分布

在这里插入图片描述

二项分布

n次实验中有k次出现的组合数

连续随机变量

常见的连续随机变量分布有高斯分布（正态分布）：在这里插入图片描述

累计分布函数（CDF），随机变量X的取值小于等于x的概率，对于连续随机变量就是一个积分
在这里插入图片描述

随机向量：一组随机变量构成随机向量。
离散随机向量的联合概率分布，就是每一维都取它特定值时的概率
连续随机向量的联合概率分布，取联合密度函数即可。

条件概率 在这里插入图片描述

采样（抽样）：给定一个概率分布，生成满足条件的样本。
那么如何进行随机采样？
直接采样：计算机只能在均匀分布Uniform[a,b)中采样，比如随机数的实现，可以用线性同余发生器来实现，使得最后的值在[0,m)之间。
在这里插入图片描述
间接采样：离散分布，可以构造一个累积分布函数（在0-1之间），在用均匀分布来采集，找到对应的离散值
连续分布，可以逆变换采样，画出累计分布函数，y值是均匀分布Uniform[0,1) ，均匀分布取y值，通过累计密度函数的逆函数得到相应的x值

在这里插入图片描述

期望：随机变量的均值。高斯分布的期望就是它的μ值，中心值。
在这里插入图片描述

离散变量

在这里插入图片描述

连续变量

大数定律：样本数量很大的时候，样本均值和真实均值充分接近。样本数量够多就近似为真实情况。

二、机器学习定义

机器学习≈自动构建一个映射函数。通过算法使得机器能从大量数据中学习规律从而对新的样本做决策
为什么要机器学习？
现实世界问题都比较复杂，很难通过规则来手工实现

我们如何构建映射函数？
从大量数据中学习规律（函数）。输入x（表示），输出y（标签），x到y有一个映射函数。根据已有的x，y的值，可以形成一个个样本，也就是训练集。
构造一个假设空间（函数空间），空间中总能挑选出一个函数，它所预测的结果和y值近似。但这不是机器学习的目的，它希望能用到未知的数据上，而不只是一个简单的拟合问题
在这里插入图片描述

三、机器学习类型

监督学习：
回归问题，输出是一个连续值，电影票房预测，股价房价预测。
分类问题，输出是离散值，手写数字识别，人脸检测，垃圾邮件检测
无监督学习：
聚类问题，无监督学习，只有x，没有y，希望能后自己生成一个y，比如图像聚类问题。类内相似，类间不相似
降维，三维到二维，相近的仍然相近
密度估计，得到空间中任意一点的密度函数

强化学习，AlphaGo,通过与环境进行交互来学习，不断试错，看哪一种带来的最终收获最大。
在这里插入图片描述

四、机器学习四要素

数据，根据数据的不同可以分为：（x,y）有监督学习；(y),无监督学习。此外还有特征的抽取问题，表示学习问题等。
模型，给定一个假设空间，选择最优的模型。
学习准则，判断模型是好是坏
优化算法，根据学习准则，去得到期望的模型

模型，以回归为例
θ是要学习的参数，具体的有权重参数w和偏置b，是一个线性模型。
在这里插入图片描述
非线性模型，ф函数是一个非线性的基函数，对x做一个非线性变换。如果它是可学习的非线性基函数，就等价于神经网络，具体见神经网络后续学习。

学习准则，一个好的模型应该在所有取值上都与真实映射函数一致。
损失函数，一个非负实数函数，量化模型预测和真实标签之间的差异.
回归问题中，存在平方损失函数，在这里插入图片描述
期望风险，损失函数在真实的数据分布下，它的期望最小化。
但是由于真实分布是不知道的，期望风险是无法计算的，根据大数定律，我们可以通过采样来近似期望。

在这里插入图片描述

期望风险近似为经验风险，是经验风险最小即可。机器学习问题转化为最优化问题。
在这里插入图片描述

最优化问题分为两类：凸优化问题，凸函数，二阶导数大于0。令它的一阶导等于0，就可以求出最优。非凸优化问题，极值点有很多个。

梯度下降法，迭代方法，梯度是增长速度最快的方向，沿着它的反方向，就是下降最快的。
在这里插入图片描述
α是搜索步长，也叫学习率，是一个超参数，由人为决定。

随机梯度下降法（SGD），每次迭代之采集一个样本，经过足够次数的迭代时，随机梯度下降也可以收敛到局部最优解。开销小，支持在线学习，但无法利用计算机的并行能力。
在这里插入图片描述
直到模型在验证集（不同于训练集）上的错误率不再下降

小批量（Mini-Batch）随机梯度下降法，选取一小部分训练样本。

五、泛化与正则化

为什么在验证集上判断是否停止?
防止过拟合的出现，经验风险最小化原则容易导致模型在训练集上错误率很低，过度拟合训练集数据，但在未知数据上错误率很高。

过拟合问题，由于训练数据少和噪声等原因造成的。
泛化误差，期望风险和经验风险之间的差。
正则化，降低泛化误差，所有损害优化的方法都是正则化，1、增加优化约束，L1/L2约束，数据增强；2、干扰优化过程，权重衰减，随机梯度下降，提前停止。
提前停止，在验证集上的错误率不再下降就停止。

六、线性回归

x为D维向量，y为连续变量
模型如下：
在这里插入图片描述
为了简单起见，可以改写式子，用增广矩阵来代替。w为增广的权重向量，x为增广的特征向量。

![在这里插入图片描述](https://img-blog.csdnimg.cn/4494a0ca102d435f972dfbde66c09c1e.pn
由于线性回归的标签𝑦和模型输出都为连续的实数值，因此平方损失函数非常合适衡量真实标签和预测标签之间的差异。
可以将训练集上的经验风险定义为下图
在这里插入图片描述
为了简单，省略了1/N，要求的是经验风险的最小化，N是一个固定值，没有影响。

X为所有样本的输入特征组成的矩阵，每一列为一个样本的特征，维度为（D+1）×N；
在这里插入图片描述
Y是所有样本的真实标签组成的列向量。维度为N×1；
经过推导，结果就是Y-XTW这个向量的模。||A||表示为A的模。经验风险就转化为了矩阵的乘法和求模操作。

经验风险最小化，让函数对w求导为0即可。
在这里插入图片描述

这种方法又被叫做最小二乘法。前提是XXT的逆矩阵是存在的。X是(D+1)×N维的，如果每个样本的特征数大于样本数（特征之间存在共线性，是冗余的），D+1>N。根据矩阵的秩的定义，XXT不是一个满秩矩阵，也就是逆矩阵不存在。
改进方法：1、不用等于0的方法，用SGD随机梯度下降法。2、降维，让D+1的维度降下来，让XXT成为满秩矩阵。主成分分析法，降低特征的维度。3、引入正则化项。

矩阵微积分
在这里插入图片描述

即使XXT是可逆的，特征之间仍然存在着共线性，即一个特征可以通过其他特征线性预测，使得x一个很小的变化，会引起w较大的变化。
因此引入结构风险。结构风险就是在经验风险的基础上加上一个正则化的约束w的取值范围
在这里插入图片描述
λ正则化系数，λ越大，限制越大，是一个超参数，学习前就决定好的，也叫做岭回归，即在对角线上加上一个λ，使得矩阵的逆存在。

概率角度看线性回归，假设标签y为一个随机变量，服从以均值为WTX，方差为σ2的高斯分布，
在这里插入图片描述
概率p(x;w)是描述固定参数w的情况下，随机变量x的分布情况；
似然p(x;w)是描述已知随机变量x时不同的参数w对其分布的影响。

则w在训练集D上的似然函数为
在这里插入图片描述
y是所有的样本，x也是所有的样本，每个样本是相互独立的，所以可以看成每个样本的条件概率的相乘。

为了方便计算，对似然函数取对数得到对数似然函数。机器学习中似然通常和指数相关，取对数更方便计算。

在这里插入图片描述

最大似然估计（MLE）是指找到一组参数w使得似然函数最大，也就是y在x的前提下，正确标签对应的概率最大。
在这里插入图片描述
它的解和最小二乘法相同，等价与经验风险最小化的解。

把参数w也看成随机变量，给定一组观测数据X，求参数w的分布p(w|X),也被成为后验分布。

如果我们希望得到一个最优的参数值，可以使用最大后验估计（点估计）．最大后验估计（MAP）是指最优参数为后验分布中概率密度最高的参数。
根据贝叶斯公式，可以得到后验，似然，先验的关系。
在这里插入图片描述

贝叶斯

在这里插入图片描述
p(w)，没有任何观测值，又被称为先验。

设w服从先验分布p(w;v)，为高斯分布N（w；0.v2I）。
在这里插入图片描述
结构风险，正比于最大后验估计。

多项式回归，把基函数改成多项式函数。
在这里插入图片描述

多项式函数也可以写成WT的样式，多项式体现在ф函数中。M是一个超参数，觉得多项式的次数，M太小，欠拟合；M太大，过拟合。这是一个模型选择问题。
在M太大的时候，对它进行惩罚，正则化。λ越大，限制越高。也可以增加训练样本的数量。
在这里插入图片描述

七、模型选择与“偏差-方差”分解

如何选择模型？
引入验证机。将训练集分成两部分，训练集和验证集。在训练集上训练不同的模型，选择在验证集上错误最小的模型。
样本数量本来就不够的情况下，就是数据稀疏问题，我们可以采用交叉验证的方法，将训练集分成S组，每次使用S-1组作为训练集，剩下1组作为验证集，取验证集上平均性能最好的一组。

也可以采用其他的模型选择准则，赤池信息量准则（AIC），贝叶斯信息准则（BIC）。

模型选择就是在模型复杂度和期望风险之间做一个选择。将期望风险分解，偏差-方差分解。

假设样本的真实分布为Pr（x，y），采用平方损失函数
在这里插入图片描述

最优模型如下所示，

损失𝜖通常是由于样本分布以及噪声引起的，无法通过优化模型来减少

在这里插入图片描述

因此，我们可以将期望风险分解如下

不同的训练集会得到不同的模型，一个机器学习算法的能力可以用不同训练集上的模型的平均性能来评价。
在这里插入图片描述
函数fx在所有训练集上所得到的模型的期望，和最优模型的差距，就是偏差，平均性能和最优性能的差距。每个数据集上的模型，和模型期望的差距的平方，方差，就是每个数和平均数之间的差距。

总之，期望风险可以分成以下三个部分。
在这里插入图片描述

低方差，低偏差自然是最好的；低方差，高偏差，造成欠拟合；高方差，低偏差，造成过拟合。一个好的正则化系数 𝜆 需要在偏差和方差之间取得比较好的平衡。有一种有效降低方差的方法为集成模型，即通过多个高方差模型的平均来降低方差。
在这里插入图片描述

八、常用定理

没有免费午餐定理（NFL），基于迭代的最优化算法，不存在某种算法对所有问题都有效，如果对某些问题有效，那么它一定在另外的问题上特别差。
丑小鸭定理，丑小鸭和白天鹅的区别，两只白天鹅的区别一样大。大小上，两只白天鹅更近；但在基因上，一大一小更近。具体的问题的特征是不一样的。
奥卡姆剃刀原理，如无必要，勿增实体。如果一个简单的模型可以解决，就不要用复杂的模型。

归纳偏置，很多学习算法经常对学习做一些假设，这些假设被称为归纳偏置。比如在最近邻分类器中，假设小的局部区域内的大部分样本是同一类；朴素贝叶斯中每个特征是相互独立的。它在贝叶斯学习中也被称为先验。

PAC学习，可能，近似，正确。大数定理，当训练集无穷大时，泛化误差趋向0，即经验风险趋近于期望风险。
下图为，就是泛化误差趋向0的可能大于0.5的。
在这里插入图片描述

根据δ和ξ可以计算样本的复杂度，泛化误差ξ越小，样本数n越多；事情发生的可能性越大，即δ越小，样本数n越多；模型越复杂，F越大，样本数n越多。
在这里插入图片描述

八、传统特征学习

传统的特征学习一般是通过人为地设计一些准则，然后根据这些准则来选取有效的特征，具体又可以分为两种：特征选择和特征抽取，也经常称为维数约减或降维。

特征选择（Feature Selection）是选取原始特征集合的一个有效子集，使得基于这个特征子集训练出来的模型准确率最高．简单地说，特征选择就是保留有用特征，移除冗余或无关的特征。主要方法有子集搜索（前向搜索，反向搜索）和L1正则化（稀疏特征）。
子集搜索又包括过滤式方法和包裹式方法。过滤式方法不依赖具体的机器学习模型，每次增加删除特征后，根据信息增益来衡量，即条件分布的不确定性的减少程度。包裹式方法是使用机器学习模型的准确率作为评价，每次增加对后续机器学习模型最有用的特征，或删除对后续机器学习任务最无用的特征。这种方法是将机器学习模型包裹
到特征选择过程的内部。

特征抽取，是构造一个新的特征空间，并将原始特征投影在新的空间中得到新的表示。特征抽取又可以分为监督和无监督的方法，监督的特征学习的目标是抽取对一个特定的预测任务最有用的特征，比如线性判别分析（LDA）；而无监督的特征学习和具体任务无关，其目标通常是减少冗余信息和噪声，比如主成分分析（PCA）。

在这里插入图片描述