机器学习基石-------Linear Regression and Logistics Regression

机器学习基石 -------线性回归和逻辑回归

Linear Regression Algorithm
Generalization issue
Linear Regression for Binary classification

Linear Regression Algorithm

在这里插入图片描述

对于X 是一个Nd+1 的矩阵 y是一个N1 的向量

现在我们要做的就是最小化 Ein(w)

在这里插入图片描述

对于一个连续可微分的凸函数一定存在一个最优解 使得函数值最小 函数值最小的含义就是函数在最小值的地方任意方向的导师都为0
所以我们要求得该函数在某一个w的位置其对w的任意分量的导数均为0

在这里插入图片描述

求一个向量的平方相当于求一个向量和自己的转置求内积
同时对于一个向量 xT和y的内积与yT 和x 的内积相等 因此 Ein(w)可以转化为1/N(Xw-y)T(Xw-y) =1/N(wTXT-YT)(Xw-y)

对于x是一维常量而言 XTX 等于X2 此时就是关于w的简单的二次方程 对于w是向量的情况下同理

在这里插入图片描述

最小值取值在梯度为0的点 因此当Ein梯度等于0的时候 如果此时XTX存在逆矩阵
则可以求出W的闭式解 (因为N远远大于d+1 当N越大的时候d+1个维度不相关的可能性越大 因为d往往和N相比较小 不断增大N的个数 每一个维度在N行不相关的可能性就越大 当N越大的时候在d+1列上将其中一列消去全变成0的难度就越大 )

在这里插入图片描述

Generalization issue

在这里插入图片描述

在这里插入图片描述
对于y hat 而言 因为 y hat是在N维空间中的向量 w是在k+1维空间的向量 Xw可以看做把x1,x2…分别在k+1维空间中进行线性组合 因为N远远大于k 所有可以将k+1维空间看成上述粉红的部分,即X在k+1维空间的展开 因为y hat是X和w的乘积 因此相当于y hat是在粉红色空间中的线性组合 也在粉红色空间内 y-y hat就是垂直于粉红色空间的部分
又因为H乘上y等于y hat 所以H想当于将y在粉红色平面区域内做投影

logistics regression

Learning Flow
在这里插入图片描述

对于未知的分布 p(y|x) 其中包含有噪声 (f(x) 以及部分噪声数据)
通过训练样本以及hypothesis set 学习算法在hypothesis set中找到一个hypothesis 使得 g约等于 f
在这里插入图片描述

理想的训练样本中 y 应该是发生的几率 但是实际中的数据 只有正负之分 可以把这样的数据集看成是具有噪声的数据

在这里插入图片描述
Logistics regression 做的事情就是将分数通过某一函数转化为0-1之间

常用的Logistics Regression为
在这里插入图片描述

在这里插入图片描述
对于线性分类 直接输出wTx 的符号 err为是否与label相等的个数
linear regression 使用的损失函数为 平方损失
那么对于逻辑回归而言

在这里插入图片描述
f(x) =p(+1|x) 所以当y等于+1的时候 P(y|x)=f(x) 当y=-1时 p(y|x)=1-f(x)
对于资料D f产生这些资料的概率为 上图左边的部分
即 p(x1)f(x1) p(x2)(1-f(x2))…
因为f是我们不知道的 我们通过h来近似替代f 所以如果f产生这些资料的概率和h产生这些资料的概率是一样的
又因为这些资料是真的从f产生的 那么使用f产生这些资料的概率是很大的 那么 同理 h用来近似代替 f 所以h产生这些资料的可能性也是很大的
所以learning algorithm 要做的是选择一个likelihood最大的h

在这里插入图片描述
又因为sigmod函数的特点 1-h(x)=h(-x)
同时对于hypothesis set中所有的h p(x1),p(x2)…都是一样的 所以似然函数正比于 h(xnyn) 的乘积

在这里插入图片描述

在这里插入图片描述
将连乘符号转化为连加 通过取对数的方式可得
在这里插入图片描述

同时将最大化转化为最小化某一损失函数,可以通过取负号得到

在这里插入图片描述

总结 logistics regression 推导过程

  1. 对于训练样本 D={(x1,y1),(x2,y2)…} 由f(x) 产生 理想状况下的数据分别为 当y = 1 时 f(x) =p(y|x) 当y=-1 时 f(x)=1-p(y|x)
  2. 通过 Learning Algorithm 在hypothesis set 中选取一个 h 使得h尽可能的接近f 对于f而言 p(x1,y1) = p(x1) * p(y1 | x1) 当y1等于1对于所有的xn均成立 同时y是由f(x)产生 因此p(y|x) 即f(x) 会很大
  3. 因为要求得一个和f相似的h所以 p(x)h(x)同理也会很大 所有演算法要找的就是 g=arg maxh likelihood(h).
  4. 因为h(x)=θ(wTx)=1/1+e-wTx 又因为 h(-x)=1-h(x)
    转化为求最大似然
    在这里插入图片描述

对Ein求导
在这里插入图片描述

在这里插入图片描述

求导使得Ein导数等于0 只有当θ等于0 即所有的xn ynWTxn都远大于0 即D线性可分
但是这又是不能保证的 ,因此这个问题较难求得闭式解

在这里插入图片描述

在这里插入图片描述
把w在梯度的反方向移动一小步

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值