【机器学习-周志华】学习笔记-第三章

记录第一遍没看懂的
记录觉得有用的
其他章节:
        第一章
        第三章
        第五章
        第六章
        第七章
        第八章
        第九章
        第十章
        十一章
        十二章
        十三章
        十四章
        十五章
        十六章

第二章主要是一些基础的介绍,实际做一次项目以后,都很好理解;并且,个人感觉,在实际应用中,很多东西是需要现查的(超小声)

第三章

        三个不同思路使用线性模型:
        3.2是让线性模型尽可能误差小的通过所有数据点
        3.3用非线性变化后的线性模型代表标签的后验概率
        3.4通过数据点映射到线性模型代表的子空间,使得数据更容易被分类

3.2 线性回归

超重要的式子
        找一个合适的w和b,使得误差平方和极小->平方损失

        在计算误差的时候,(3.4)中的x,y其实是常数,而w和b反而成为了未知量。那么可以以先展开E(w,b)如下:

E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 = ∑ i = 1 m ( x i 2 w 2 + y i 2 + b 2 − 2 y i x i w − 2 y i b − 2 w b x i ) = ∑ ( x i 2 ) w 2 + m b 2 + ( − 2 ∑ ( x i y i ) ) w + ( − 2 ∑ y i ) b + ∑ y i 2 \begin{aligned} E(w,b) &=\sum_{i=1}^{m}(y_i-wx_i-b)^2\\ &=\sum_{i=1}^{m}(x_i^2w^2+y_i^2+b^2-2y_ix_iw-2y_ib-2wbx_i)\\ &=\sum(x_i^2)w^2+mb^2+(-2\sum(x_iy_i))w+(-2\sum y_i)b+\sum y_i^2 \end{aligned} E(w,b)=i=1m(yiwxib)2=i=1m(xi2w2+yi2+b22yixiw2yib2wbxi)=(xi2)w2+mb2+(2(xiyi))w+(2yi)b+yi2
以w和b为未知项,可以看出,这是一个关于w和b的二次曲面。Ei为了求二次曲面的极小点,对w和b分别求导:
在这里插入图片描述
得到:
在这里插入图片描述
        扩展到整个数据集
在这里插入图片描述
        再求导得到:(完整的求梯度的过程在附录A中)
在这里插入图片描述
        求解得到:(重要公式)
在这里插入图片描述

3.3 对数几率回归

对数几率回归:
在这里插入图片描述
概率替换重写为:
在这里插入图片描述
由于连乘项不方便求导,一般方法就是对连乘项取对数变成累加。且取对数以后,并不影响w的大小判断。
在这里插入图片描述
(3.27-3.31)这几个式子,没咋看太懂,且没太想清楚,有啥用QWQ

3.4 线性判别分析

在这里插入图片描述
        样本协方差写全为(里面的协方差矩阵的展开可以参考公式(3.33))
Σ 0 = ∑ ( x − μ 0 ) ( x − μ 0 ) T w T Σ 0 w = ∑ w T ( x − μ 0 ) ( x − μ 0 ) T w \Sigma_0=\sum(x-\mu_0)(x-\mu_0)^T \\ w^T\Sigma_0w=\sum w^T(x-\mu_0)(x-\mu_0)^Tw Σ0=(xμ0)(xμ0)TwTΣ0w=wT(xμ0)(xμ0)Tw
        那么最大化目标就是希望,分子(类中心之间的距离)尽可能大,其分母(同类投影点的协方差)尽可能小,也就是最大化目标整体尽可能大。

在这里插入图片描述
        关于这里的拉格朗日乘子法的计算,(3.36)可以写成目标函数+限制的形式
m i n ( − w T S b w + λ ( w T S w w − 1 ) ) min(-w^TS_bw+\lambda(w^TS_ww-1)) min(wTSbw+λ(wTSww1))
        可以看出,这是一个关于w的二次曲面。那么要求最优的w,可以求梯度(和3.2一样的原理,同样也需要附录公式)
在这里插入图片描述
        也就是(两个分别代入,同时除以-2),得到(3.37)

∂ [ − w T S b w + λ ( w T S w w − 1 ) ] / ∂ w = S b − λ S w w = 0 \partial[-w^TS_bw+\lambda(w^TS_ww-1)]/\partial w=S_b-\lambda S_ww=0 [wTSbw+λ(wTSww1)]/w=SbλSww=0
        参考(3.32)式
S b w = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w → ( μ 0 − μ 1 ) S_bw=(\mu_0-\mu1)(\mu_0-\mu1)^Tw \rightarrow(\mu_0-\mu1) Sbw=(μ0μ1)(μ0μ1)Tw(μ0μ1)
        而(μ01)T w是个标量,所以方向完全由(μ01)决定,大小乘以任意一个常数对方向没有影响。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 什么是泛化能力?泛化能力和过拟合之间有什么关系? 泛化能力是指模型在新的、未见过的数据上的表现能力。模型的泛化能力与其对训练数据的拟合程度有关,通常来说,过拟合的模型泛化能力较差。 2. 什么是交叉验证?交叉验证的作用是什么? 交叉验证是一种通过将数据集分成若干个子集来进行模型评估的方法。具体地,将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。交叉验证的作用是提高模型评估的可靠性和泛化能力。 3. 留出法、k折交叉验证和留一法的区别是什么?它们各自适用于什么情况? 留出法是将数据集分成两部分,一部分作为训练集,另一部分作为测试集。留出法适用于数据集较大的情况。 k折交叉验证是将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。k折交叉验证适用于数据集较小的情况。 留一法是k折交叉验证的一种特殊情况,即将数据集分成n个子集,每个子集都作为测试集,其余子集作为训练集,重复n次。留一法适用于数据集较小且样本数较少的情况。 4. 为什么要对数据进行预处理?数据预处理的方法有哪些? 数据预处理可以提高模型的表现,并且可以减少过拟合的风险。数据预处理的方法包括:标准化、归一化、缺失值填充、特征选择、特征降维等。 5. 什么是特征选择?特征选择的方法有哪些? 特征选择是指从所有特征中选择出对模型预测结果有重要贡献的特征。特征选择的方法包括:过滤式方法、包裹式方法和嵌入式方法。其中,过滤式方法是基于特征间的关系进行特征选择,包裹式方法是基于模型的性能进行特征选择,嵌入式方法是将特征选择嵌入到模型训练中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值