吃瓜教程第3章

目录

一元线性回归

为什么用直线而不用一条曲线?

正交回归 vs 线性回归

线性回归

极大似然估计

​编辑

线性回归中用极大似然估计

总结

W,b的求解

为什么是凸函数

为什么偏导求出来为最小值点

​编辑多元线性回归

导出并向量化损失函数E

求解w

证明凸函数

求解w

​编辑对数几率回归

极大似然估计推导​编辑

​编辑信息熵推导

 总结

​编辑二分类线性判别分析

符号明确

算法原理

损失函数推导

w求解

广义特征值

广义瑞利商

一元线性回归

为什么用直线而不用一条曲线?

如果用曲线拟合存在过拟合的问题,测量点存在一定误差,用曲线连接就是把误差也考虑进去了

正交回归 vs 线性回归

正交回归:过点作与直线的垂线的距离   
线性回归:同x下y与y'的距离     

线性回归

  • 目标:最小均方误差值——>用均方误差最小化进行模型求解的方法叫“最小二乘法”
  • 损失函数:通过均方误差衡量(平方保证都是正的)

E(w,b)=\sum_{i=1}^{m}[y_i-f(x_i)]^2

(w*,b*) =\mathop{argmin}_{w,b}\sum_{i=1}^{m}[y_i-f(x_i)]^2

注:\mathop{argmin}_{x}y 指使y最小时x的取值,最后输出的是x的取值而不是y的最小值

极大似然估计

找到一个参数使联合概率分布最大 

求解步骤

线性回归中用极大似然估计

此时对 \epsilon 的建模转换为对y的建模,均值为 (wx+b)

 推导步骤:

我的理解:极大似然估计与最小二乘估计殊途同归

总结

W,b的求解

  • 为什么是凸函数?
  • 求偏导得出的为什么一定是最值?

为什么是凸函数

左凹右凸 

左凸右凹

 

 由一阶梯度推广到二阶海塞矩阵

海塞矩阵判凹凸性类似于一元函数中,通过求二阶导判凹凸性 

顺序主子式的定义:

把2阶顺序主子式凑了个平方项得证

为什么偏导求出来为最小值点

根据偏导为0求出w【为方便代码处理,通常进行向量化】

多元线性回归

目标:

  • 导出损失函数
  • 求解\hat{w}

导出并向量化损失函数E

w_{d+1}:扩充矩阵把常数合并进去,完全向量化

对求和符号也进行向量化

其中②为a^Tb = b^Ta,因为a^Tb为常数,常数转置等于本身

求解w

证明凸函数→利用凸函数的性质求解\hat{w}

证明凸函数

-\frac{\partial y^TX\hat{w}}{\partial\hat{w}}和后面几个函数都是标量对向量求偏导(矩阵微分内容)

求法:

矩阵微分查询相关资料:

https://en.wikipedia.org/wiki/Matrix_calculus

求解w

对数几率回归

本质:分类算法,通过线性映射上套一个映射实现分类

f(x)\subseteq R\rightarrow g(f(x))\subseteq (0,1)

映射函数为:y=\frac{1}{1+e^{-z}}(sigmoid函数)

为什么选取该函数

  • 西瓜书:根据对数几率选的
  • 拓展阅读:https://sm1les.com/2019/01/17/logistic-regression-and-maximum-entropy/

极大似然估计推导

信息熵推导

利用相对熵刻画理想分布和模拟分布的差异

 

 总结

二分类线性判别分析

符号明确

  • 假设现在有4个样本(x1,y1)(x2,y2)(x3,y3)(x4,y4),前两个样本分类为1,后两个样本分类为0,x\subseteq \mathbb{R}^ny\subseteq \{0,1\}
  • X_0表示负样本的集合,X_1表示正样本的集合;
  • \mu _0为负样本的特征向量,\mu _0=\frac{x_3+x_4}{2}\mu _1为正样本的特征向量,\mu _1=\frac{x_1+x_2}{2}

\sum_0 为负样本的协方差,\sum_1 为正样本的协方差
严格定义:\sum_0=\frac{1}{m_0}{}\mathop{\sum}_{x\subseteq X_0} (x-\mu _0)(x-\mu _0)^T
                  \sum_1=\frac{1}{m_1}{}\mathop{\sum}_{x\subseteq X_1} (x-\mu _1)(x-\mu _1)^T
其中m0为X0中的样本个数,m1同理,西瓜书上没有m系数,不严谨,但不影响推导

算法原理

这是一个特征空间(由特征属性作为坐标轴),找一条直线,所有点垂直投影到直线上,该直线需要满足:同类的投影后尽量距离近,异类的投影后距离尽量远。若新加入一个样本“?”,根据投影判别它离正样本更近,则判定为正样本

损失函数推导

问题:怎么找到投影的这条直线?

数学化:同类样本方差尽量小,异类中心点相隔远

并非严格投影是指,本来投影是\mu _1cos\theta\theta为样本点与直线w上任意一点连线,和直线w的夹角),但是为了方便用内积计算,补上了直线的模长|w|

并非严格方差:前面解释过了,系数原因(但不影响最小化)

w^Tx-w^T\mu _0 就是样本点的投影到中心点投影的距离,则w^T\sum _0w 就等于方差(距离的平方和)

分子:异类中心的投影距离

分母:同类样本点和中心点距离的方差

||x||_2^2:下面那个2指2范数,即向量的模长,上面那个2是平方,该项可以等效为向量的内积

w求解

也可以固定分子或者固定w,只是为了使问题可解,一般把最大化问题都转为最小化问题

\lambda为广义特征值,AX=\lambdaX为特征值问题,AX=\lambdaBX为广义特征值问题因为如果这个时候考虑约束条件,就是把w代进去设置\gamma使w满足约束,但本质也是限制w模长,所以不考虑了

目标函数不为0说明不是最大值点,那么就是最小值点。一定存在的原因是,w就只能360度旋转,投影距离一定存在最大值最小值(该具体场景下具体分析)

广义特征值

广义瑞利商

w即为Sb相对于Sw的最大特征值(前面所说的分母固定,符合该处条件)。能使得广义特征值方程成立的就是n个广义特征向量,代入R(x)中就可以求得特征值

视频链接:

第3章-一元线性回归_哔哩哔哩_bilibili

第3章-多元线性回归_哔哩哔哩_bilibili

第3章-对数几率回归_哔哩哔哩_bilibili

第3章-二分类线性判别分析_哔哩哔哩_bilibili

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值