白板机器学习笔记 P13-P21 线性分类

最新推荐文章于 2022-08-27 08:00:17 发布

李攀007

最新推荐文章于 2022-08-27 08:00:17 发布

阅读量291

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_40367091/article/details/113741851

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

视频地址：https://www.bilibili.com/video/BV1aE411o7qd
笔记地址：https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466

P13 线性分类1-背景
在这里插入图片描述
线性回归的特性：（通过打破这些特性就是新的机器学习方法）
1、线性：
①属性线性：f(w,b)=w^Tx+b中，f对于w和x都是线性关系。如让f对x不是线性组合关系，可以将x变为多次项，也即多项式回归。
②全局线性：直接输出线性组合的结果。可以添加激活函数成为分类。
③系数线性：如线性回归只要给定样本集，回归方程就是确定的。打破系数线性例如：神经网络、感知机。受初始变量随机性的影响，最后的决策函数不同。
2、全局性：
全局适用统一的线性函数，不存在分段函数的情况。打破全局性例如：线性样条回归、决策树。决策树就是将样本空间划分成不同的子空间，在不同的子空间有不同的决策函数。
3、数据未加工：
只是对原始输入特征x进行线性组合。PCA、流形则是将原始特征重组为抽象特征再进行处理。

P14 线性分类2-感知机（硬输出）
在这里插入图片描述
硬分类：分类结果取0或1。 {0,1}
软分类：分类结果取0到1。 {0-1}
函数f: x 映射到 y。
f的逆函数f^-1:y 映射回 x。

I{condition}：指示函数，当条件为真时取1，为假时取0.
感知机思想：错误驱动。先初始化一个决策函数，根据样本分类错误的情况进行调整。
y_iw^Tx_i的意义: w^Tx_i是预测值，y_i是真实值。在分类问题中，只考虑预测符号的情况下。当预测正确时，预测值和真实值显然同号。所以y_iw^Tx_i>0表示预测正确，y_iw^Tx_i<0表示预测错误。
Loss函数：L(w)用-y_iw^Tx_i而不用指示函数的原因是，指示函数只有0/1取值，不能连续变化，导致不可求导。
补充一：可以了解一下感知机收敛定理，保证感知机收敛的条件。
补充二：针对数据集线性可分的情况，感知机可以自然的从初始位置变化得到一个可以将数据集都正确分类的目标函数。当数据集不线性可分时，参考感知机pocket算法。

P15 线性分类3-线性判别分析（硬输出）
在这里插入图片描述
线性判别分析LDA（fisher判别）思想：将样本集投影到一条直线上，使得类内小、类间大。投影其实就是降维的思想，将x的P维特征降到一维，在一条直线上进行分类；这是一个二分类方法，类内小就是同一个标签的数据投影后聚集在一起，高内聚；类间大就是投影后两类数据之间距离尽可能远，低耦合。

对类内小、类间大的理解：因为样本点之间是不同的，那么只有降维后、投影到直线上还有较好的区分度，才说明尽可能保留了不同样本之间的差异化信息。如果降维后所有样本都重叠到一个点上，那不是说明无法区分，表征样本差异的信息都丢失了嘛。

Loss函数：
在这里插入图片描述
Z_i=w^Tx_i表示将向量x_i投影到向量w上的长度；
Z^bar₁表示第一类所有样本点投影长度的均值；
Z^bar₂表示第二类所有样本点投影长度的均值；
S₁表示第一类样本投影长度的方差；
S₂表示第二类样本投影长度的方差；
所以：
根据上边fisher判别的思想，用两类投影长度的均值之差表示类间的距离，要越大越好；用两类投影的方差之和表示两个类的类内距离，都要越小越好；因为一个目标是极大一个极小，用除法的形式表示就是上边的损失函数J(w)。
补充一：w^T可以从求和符号∑中提出来，原因是w^T是常量。不论是向量还是数值，只要是常量就可以从求和中提取出来。
补充二：协方差矩阵用来衡量变量x的任意两个属性的相关性（在整个训练集中衡量，每个属性从所有样本中各收集一个值组成向量，再做向量点积）。协方差的对角线上就是所有属性自身的方差。

P16 线性分类4-线性判别分析
在这里插入图片描述
对协方差矩阵形式的理解：

为什么对单个样本就能展成协方差矩阵呢？因为协方差矩阵衡量的本来就是不同属性之间是否协同变化。一个样本包含了所有属性，也就可以看，就这个样本而言是否任意两个属性变化位于均值的同一侧。算出每个样本的子协方差矩阵，最后再对所有样本的子协方差矩阵求平均。如果一个样本只有一个属性，那么其协方差矩阵也就是1*1维的，也就是方差是一个数。
Loss函数：J(w)是一个数，其中w^T是（1 x P）维的，S_b是（P x P）维的，w是（P x 1）维的，所以分子w^TS_bw和分母w^TS_ww都是一个实数。
类内方差和类间方差：S_b是类间方差，S_w是类内方差。类内和类间最大的区别就在于，求协方差矩阵时减数和被减数是否是一个类别的。其实很容易理解，协方差本来就是对每个属性求一个差值，后边再看不同属性之间是否相对于减数这个基准同向变化。S_w的被减数是c₁类别中的样本，减数是c₁类别所有样本的均值，都是同一个类别衡量的当然是类内的散度；S_b的被减数是c₁类的均值向量，减数是c₂类的均值向量，衡量的任意两个属性类间的相对变化情况。
补充一：我们优化参数w，其实对w的大小没有要求，我们期望知道的只是w的方向。知道了这个方向也就找到了fisher判别要降维的直线，大小只是一个缩放因子并不重要。这种只求方向的计算可以将式中的一些矩阵乘法消去简化计算，只要部分项相乘是常数的情况下，即使含有变量也可以消去，因为算出来是一个数的话对最后方向没有影响。

P17 线性分类5-logistic逻辑回归（软输出、判别模型）
在这里插入图片描述
思想：就是线性回归加上一个sigmoid激活函数，处理成0-1软区间的分类问题。最后用极大似然MLE衡量真实分布和观测分布之间的差异，作为loss。σ(w^Tx)就是模型的数学表达，也即是我们认为的数据的真实概率分布，只不过这个概率分布中含有变量w，是在优化的过程中，我们最终是要近似出这个真实概率分布，然后用它来对其他未知样本进行预测的；而训练集中各个类别样本出现的概率就是我们实际观测到的分布情况，这个分布是固定不变的。所以训练模型的过程也就是让我们近似出的真实分布去拟合我们观测到的实际分布。
Loss函数：

交叉熵的本质就是极大似然估计MLE：
https://www.zhihu.com/question/65288314/answer/849294209

在这里插入图片描述
这里p₀、p₁就是我们从训练集中实际观测到的各个类别数据出现的概率分布，也可以不只是二分类。y、1-y就是从我们的模型预测得到的概率分布，也可以理解为从模型分布中模拟出的该类别的观测次数（y理解为次数或者概率都可以，因为取log后y变成系数，无非整体乘一个数值，不影响极大似然的相对大小）。所以上式的意思就是：类别0的发生概率为p₀，发生了1-y；类别1的概率为p₁，发生了y次，问出现0发生1-y次、1发生y次这种情况的概率是多少，就是上边的式子。注意这个式子的前提是独立同分布，也就是每次出现一个样本是哪个类别概率都是一样的，这也是交叉熵的前提，也是所有跟极大似然有关问题的前提，是频率学派的解决方法。
在这里插入图片描述
这个式子把y_i提进来变成p_i的指数，然后去掉log变成乘法其实就是之前那个公式，所以交叉熵确实是极大似然的思想。

P18-20 线性分类-高斯判别分析（软输出、生成模型）

生成模型和判别模型的区别：
https://www.jianshu.com/p/4ef549eb0ad4

高斯判别分析思想：因为是生成模型，所以是对联合概率分布建模，P(x,y)=P(x|y)*P(y)。预设P(y)是伯努利分布，P(x₁|y)和P(x₂|y)是方差一样、均值不同的正态分布。因为函数形式都已经确定，所以就只是根据数据进行了参数估计。

P21 线性分类-朴素贝叶斯（软输出、生成模型）
在这里插入图片描述
核心思想：朴素贝叶斯假设又叫条件独立性假设，假定输入变量x的各个属性之间相互独立，主要目的是简化计算。可以将P(x|y)化简成连乘的形式，然后用极大似然估计参数。

李攀007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
白板机器学习笔记 P13-P21 线性分类

视频地址：https://www.bilibili.com/video/BV1aE411o7qd笔记地址：https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466P13 线性分类1-背景线性回归的特性：（通过打破这些特性就是新的机器学习方法）1、线性：①属性线性：f(w,b)=wTx+b中，f对于w和x都是线性关系。如让f对x不是线性组合关系，可以将x变为多次项，也即多项式回归。②全局线性：直接输出线性组合.
复制链接

扫一扫

专栏目录