机器学习之 线性回归,lasso,ridge回归,对数几率回归(逻辑回归),线性判别分析

@机器学习之 线性回归,对数几率回归(逻辑回归),线性判别分析
在这里插入图片描述
模型是方法,策略是函数例如 最小二乘,算法是求解方法

属性特征处理:

  1. 二值离散特征(0和1)
  2. 有序连续特征(1,2,3对应小 中 大)
  3. 无序离散特征(one-hot编码)

线性回归

均方误差最小化(最小二乘估计)

几何意义上是预测值和实际值的差平方(并不是垂直距离的误差,那样成了正交差)
argmin(w,b) 求最小值的w和b

极大似然估计(估计概率分布的参数值)

问:线性回归中怎么能利用极大似然估计(观测样本出现概率最大的分布)去估计y(预测值)的分布呢

在这里插入图片描述
在这里插入图片描述

将误差代替之后,y就是原概率密度函数中独立同分布的随机变量,wx+b是μ
在这里插入图片描述
在这里插入图片描述
在其中m和σ是常数,所以在优化中需要求导(可与直接忽略),最终得到了线性回归的极大似然估计就是最小二乘估计

求解w和b的参数(凸函数最值点)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1. 为什么 (y-wx-b)2 是凸函数

证明原函数的海塞矩阵是半正定即可,半正定是 矩阵的顺序主子式大于0
在这里插入图片描述
在这里插入图片描述
按照上面的要求,对w和b求出了二阶导数,所对应的海塞矩阵如图,只要证明上述式子在这里插入图片描述

2. 最值点

在这里插入图片描述

多元线性回归

在这里插入图片描述
将b扩充进去,作为d+1维的量,在x处的d+1的值是1在这里插入图片描述
在这里插入图片描述
将求和运算向量化,因为在向量化之后便于矩阵计算
在这里插入图片描述
变成了向量内积的计算方法,再对后面的向量进行拆解
在这里插入图片描述
在这里插入图片描述
得到了向量化之后的结果,最小化的损失函数

多元线性回归损失函数证明

在这里插入图片描述

证明凸函数,也是其海塞矩阵半正定,

在这里插入图片描述
标量对向量的求导,矩阵微分中的知识,在这里插入图片描述在这里插入图片描述在这里插入图片描述

一阶求导的值在上面求解海塞矩阵中得到在这里插入图片描述

在现实任务中由于XTX不是满秩矩阵,对于真实的X,列数往往多于行数,也就是变量比样例数还多,此时w可能有多个值,都可以均方误差最小化,此时解将由算法的归纳偏好决定,做法是引入正则化

岭回归 解决 多重共线性

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

所以,一般通过调节α,就可以实现恰当的数据拟合
在这里插入图片描述在这里插入图片描述

Lasso 最小绝对收缩和选择算子

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
对于后面部分的假设,w的值为正,所以绝对值去掉,上面的2写错了,应该没有

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

根据以上得到,lasso限制w参数,是让其直接为0,所以可以用来进行特征选择

ridge选择R2作为验证误差,lasso选择均方误差(只考虑了偏差,不考虑方差)

对数几率回归

算法原理

线性回归做的是实值的解答,对数几率回归是一个利用映射函数做分类的功能
先是二分类
如何实现:找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系
在这里插入图片描述
分类中,机器学习任务会给出样本的概率值,那么范围是[0,1]之间的,线性回归中的值是R上的不能直接用,所以用一个映射函数完成了分类任务
西瓜书的角度是对数几率,ln(y/1-y)

https://sm1les.com/2019/01/17/logistic-regression-and-maximum-entropy/

离散变量的分类(概率质量函数)

极大似然估计推导

方便于在多元条件的一样使用
在这里插入图片描述
将整合,方便使用极大似然函数在这里插入图片描述在这里插入图片描述
在这里插入图片描述
函数整合,取对数之后,yi的取值是0或者1,那么按照结果就得到了下面的式子
在这里插入图片描述

信息论推导

x是随机变量X的所有取值在这里插入图片描述理想分布px,模拟分布qx ,一般的,px的取值是小于1的,所以log得到的结果是小于1,那么带上负号转为正值 在这里插入图片描述根据上面的公式,当px和qx相等的时候,值是1,所以此时相对熵最小,为0,在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
此时,从极大似然估计和信息论角度得到了同样的损失函数
因为没有闭式解,所以采用一些算法求解最优值
在这里插入图片描述

线性判别分析

在这里插入图片描述

算法原理

根据其定义可知 用来进行分类 ,主要是用来降维(类别减1)
在这里插入图片描述
书中的公式:X是不同取值的样本,μ是不同取值样本的均值向量,Σ是不同取值样本的协方差(少了系数,但是不影响结果)
在特征空间找一个方向,使得所有的样本点都投影上去,目的:中心远,方差小
类内方差小,类间方差大
在这里插入图片描述
我们让中心远,那么就是μ0-μ1的距离较大,但是投影的距离是|μ|cosθ,一般的,角度theta不好求,所以使用w的转置乘以μ作为投影距离,乘w的模长对我们的max目标没有影响
根据公式:cosθ = u
v / |u||v|
所以一般的:
在这里插入图片描述
在上面的方差公式中,wT*x是向量x在w方向的投影,这样的得到了方差小的目标函数
两个目标函数整合:
在这里插入图片描述

可解损失函数

在max中,w的值多解,因为放大倍数都有解,Sb和Sw是固定的,所以此时条件将分母固定,w也就固定了范围,这样max目标就有了求解
在这里插入图片描述

拉格朗日乘子法

在这里插入图片描述
得到在约束条件下的极值点,但是得到的极值解还需要进行最值的挑选

w的求解

在这里插入图片描述
Sb和Sw是对称矩阵
在这里插入图片描述
在Sbw = λSww是一个广义特征值求解的问题
(μ0-μ1)T*w是一个值,所以可以直接假设,γ只受w的影响
在这里插入图片描述
在这里插入图片描述
因为几何意义是中心点的距离,并且它的方向是四周变化,所以一定具有最大最小值

广义特征值

在这里插入图片描述

广义瑞利商

在这里插入图片描述

在这里插入图片描述
根据其性质,我们在前面的拉格朗日乘子法中得到的结果其实是特征值最大的对应的特征向量就是其解,
对于多分类问题,将W划分列向量,也就是转为二分类问题,w1对用的是最大的特征向量
w2对应的是第二大的特征向量,依次排序就得到了后面的结果

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值