【机器学习-周志华】学习笔记-第三章

vircorns

已于 2022-09-06 22:50:06 修改

阅读量594

点赞数

分类专栏： # 机器学习文章标签：机器学习人工智能矩阵

于 2022-08-22 23:45:25 首次发布

本文链接：https://blog.csdn.net/weixin_43476037/article/details/126329960

版权

机器学习专栏收录该内容

14 篇文章 4 订阅

订阅专栏

记录第一遍没看懂的
记录觉得有用的
其他章节：
        第一章
         第三章
         第五章
         第六章
         第七章
         第八章
         第九章
         第十章
         十一章
         十二章
         十三章
         十四章
         十五章
         十六章

第二章主要是一些基础的介绍，实际做一次项目以后，都很好理解；并且，个人感觉，在实际应用中，很多东西是需要现查的(超小声)

第三章

        三个不同思路使用线性模型：
        3.2是让线性模型尽可能误差小的通过所有数据点
        3.3用非线性变化后的线性模型代表标签的后验概率
        3.4通过数据点映射到线性模型代表的子空间，使得数据更容易被分类

3.2 线性回归

超重要的式子：
找一个合适的w和b，使得误差平方和极小->平方损失

在计算误差的时候，(3.4)中的x,y其实是常数，而w和b反而成为了未知量。那么可以以先展开E(w,b)如下：

$\begin{aligned} E(w,b) &=\sum_{i=1}^{m}(y_i-wx_i-b)^2\\ &=\sum_{i=1}^{m}(x_i^2w^2+y_i^2+b^2-2y_ix_iw-2y_ib-2wbx_i)\\ &=\sum(x_i^2)w^2+mb^2+(-2\sum(x_iy_i))w+(-2\sum y_i)b+\sum y_i^2 \end{aligned}$
以w和b为未知项，可以看出，这是一个关于w和b的二次曲面。Ei为了求二次曲面的极小点，对w和b分别求导：
在这里插入图片描述
得到：

        扩展到整个数据集

        再求导得到：（完整的求梯度的过程在附录A中）

        求解得到：(重要公式)

3.3 对数几率回归

对数几率回归：
在这里插入图片描述
概率替换重写为：

由于连乘项不方便求导，一般方法就是对连乘项取对数变成累加。且取对数以后，并不影响w的大小判断。

(3.27-3.31)这几个式子，没咋看太懂，且没太想清楚，有啥用QWQ

3.4 线性判别分析

在这里插入图片描述
样本协方差写全为(里面的协方差矩阵的展开可以参考公式(3.33))
$\Sigma_0=\sum(x-\mu_0)(x-\mu_0)^T \\ w^T\Sigma_0w=\sum w^T(x-\mu_0)(x-\mu_0)^Tw$
那么最大化目标就是希望，分子（类中心之间的距离）尽可能大，其分母（同类投影点的协方差）尽可能小，也就是最大化目标整体尽可能大。

在这里插入图片描述
        关于这里的拉格朗日乘子法的计算，(3.36)可以写成目标函数+限制的形式
$min(-w^TS_bw+\lambda(w^TS_ww-1))$
        可以看出，这是一个关于w的二次曲面。那么要求最优的w，可以求梯度(和3.2一样的原理，同样也需要附录公式)
在这里插入图片描述
        也就是(两个分别代入，同时除以-2)，得到(3.37)

$\partial[-w^TS_bw+\lambda(w^TS_ww-1)]/\partial w=S_b-\lambda S_ww=0$
参考(3.32)式
$S_bw=(\mu_0-\mu1)(\mu_0-\mu1)^Tw \rightarrow(\mu_0-\mu1)$
而(μ₀-μ₁)^T w是个标量，所以方向完全由(μ₀-μ₁)决定，大小乘以任意一个常数对方向没有影响。