机器学习基石-------Linear Regression and Logistics Regression

最新推荐文章于 2022-08-06 11:35:26 发布

1只小包子

最新推荐文章于 2022-08-06 11:35:26 发布

阅读量421

点赞数

分类专栏：机器学习基石

本文链接：https://blog.csdn.net/a940902940902/article/details/84312978

版权

机器学习基石专栏收录该内容

19 篇文章 1 订阅

订阅专栏

机器学习基石 -------线性回归和逻辑回归

Linear Regression for Binary classification

Linear Regression Algorithm

在这里插入图片描述

对于X 是一个Nd+1 的矩阵 y是一个N1 的向量

现在我们要做的就是最小化 E_in(w)

在这里插入图片描述

对于一个连续可微分的凸函数一定存在一个最优解使得函数值最小函数值最小的含义就是函数在最小值的地方任意方向的导师都为0
所以我们要求得该函数在某一个w的位置其对w的任意分量的导数均为0

在这里插入图片描述

求一个向量的平方相当于求一个向量和自己的转置求内积
同时对于一个向量 x^T和y的内积与y^T 和x 的内积相等因此 E_in(w)可以转化为1/N（Xw-y）^T(Xw-y) =1/N(w^TX^T-Y^T)(Xw-y)

对于x是一维常量而言 X^TX 等于X² 此时就是关于w的简单的二次方程对于w是向量的情况下同理

在这里插入图片描述

最小值取值在梯度为0的点因此当E_in梯度等于0的时候如果此时X^TX存在逆矩阵
则可以求出W的闭式解（因为N远远大于d+1 当N越大的时候d+1个维度不相关的可能性越大因为d往往和N相比较小不断增大N的个数每一个维度在N行不相关的可能性就越大当N越大的时候在d+1列上将其中一列消去全变成0的难度就越大）

在这里插入图片描述

Generalization issue

在这里插入图片描述

在这里插入图片描述
对于y hat 而言因为 y hat是在N维空间中的向量 w是在k+1维空间的向量 Xw可以看做把x1，x2…分别在k+1维空间中进行线性组合因为N远远大于k 所有可以将k+1维空间看成上述粉红的部分，即X在k+1维空间的展开因为y hat是X和w的乘积因此相当于y hat是在粉红色空间中的线性组合也在粉红色空间内 y-y hat就是垂直于粉红色空间的部分
又因为H乘上y等于y hat 所以H想当于将y在粉红色平面区域内做投影

logistics regression

Learning Flow
在这里插入图片描述

对于未知的分布 p(y|x) 其中包含有噪声（f(x) 以及部分噪声数据）
通过训练样本以及hypothesis set 学习算法在hypothesis set中找到一个hypothesis 使得 g约等于 f
在这里插入图片描述

理想的训练样本中 y 应该是发生的几率但是实际中的数据只有正负之分可以把这样的数据集看成是具有噪声的数据

在这里插入图片描述
Logistics regression 做的事情就是将分数通过某一函数转化为0-1之间

常用的Logistics Regression为
在这里插入图片描述

在这里插入图片描述
对于线性分类直接输出w^Tx 的符号 err为是否与label相等的个数
linear regression 使用的损失函数为平方损失
那么对于逻辑回归而言

在这里插入图片描述
f(x) =p(+1|x) 所以当y等于+1的时候 P(y|x)=f(x) 当y=-1时 p(y|x)=1-f(x)
对于资料D f产生这些资料的概率为上图左边的部分
即 p（x1）f（x1） p(x2)(1-f(x2))…
因为f是我们不知道的我们通过h来近似替代f 所以如果f产生这些资料的概率和h产生这些资料的概率是一样的
又因为这些资料是真的从f产生的那么使用f产生这些资料的概率是很大的那么同理 h用来近似代替 f 所以h产生这些资料的可能性也是很大的
所以learning algorithm 要做的是选择一个likelihood最大的h

在这里插入图片描述
又因为sigmod函数的特点 1-h(x)=h(-x)
同时对于hypothesis set中所有的h p(x1),p(x2)…都是一样的所以似然函数正比于 h(x_ny_n) 的乘积

在这里插入图片描述

在这里插入图片描述
将连乘符号转化为连加通过取对数的方式可得

同时将最大化转化为最小化某一损失函数，可以通过取负号得到

在这里插入图片描述

总结 logistics regression 推导过程

对于训练样本 D={(x₁,y₁),(x₂,y₂)…} 由f(x) 产生理想状况下的数据分别为当y = 1 时 f(x) =p(y|x) 当y=-1 时 f(x)=1-p(y|x)
通过 Learning Algorithm 在hypothesis set 中选取一个 h 使得h尽可能的接近f 对于f而言 p(x₁,y₁) = p（x₁) * p(y₁ | x₁) 当y₁等于1对于所有的x_n均成立同时y是由f（x）产生因此p(y|x) 即f(x) 会很大
因为要求得一个和f相似的h所以 p(x)h(x)同理也会很大所有演算法要找的就是 g=arg max_h likelihood(h).
因为h（x）=θ（w^Tx）=1/1+e^{-w^Tx} 又因为 h(-x)=1-h(x)
转化为求最大似然