机器学习基石 -------线性回归和逻辑回归
Linear Regression Algorithm
Generalization issue
Linear Regression for Binary classification
Linear Regression Algorithm
对于X 是一个Nd+1 的矩阵 y是一个N1 的向量
现在我们要做的就是最小化 Ein(w)
对于一个连续可微分的凸函数一定存在一个最优解 使得函数值最小 函数值最小的含义就是函数在最小值的地方任意方向的导师都为0
所以我们要求得该函数在某一个w的位置其对w的任意分量的导数均为0
求一个向量的平方相当于求一个向量和自己的转置求内积
同时对于一个向量 xT和y的内积与yT 和x 的内积相等 因此 Ein(w)可以转化为1/N(Xw-y)T(Xw-y) =1/N(wTXT-YT)(Xw-y)
对于x是一维常量而言 XTX 等于X2 此时就是关于w的简单的二次方程 对于w是向量的情况下同理
最小值取值在梯度为0的点 因此当Ein梯度等于0的时候 如果此时XTX存在逆矩阵
则可以求出W的闭式解 (因为N远远大于d+1 当N越大的时候d+1个维度不相关的可能性越大 因为d往往和N相比较小 不断增大N的个数 每一个维度在N行不相关的可能性就越大 当N越大的时候在d+1列上将其中一列消去全变成0的难度就越大 )
Generalization issue
对于y hat 而言 因为 y hat是在N维空间中的向量 w是在k+1维空间的向量 Xw可以看做把x1,x2…分别在k+1维空间中进行线性组合 因为N远远大于k 所有可以将k+1维空间看成上述粉红的部分,即X在k+1维空间的展开 因为y hat是X和w的乘积 因此相当于y hat是在粉红色空间中的线性组合 也在粉红色空间内 y-y hat就是垂直于粉红色空间的部分
又因为H乘上y等于y hat 所以H想当于将y在粉红色平面区域内做投影
logistics regression
Learning Flow
对于未知的分布 p(y|x) 其中包含有噪声 (f(x) 以及部分噪声数据)
通过训练样本以及hypothesis set 学习算法在hypothesis set中找到一个hypothesis 使得 g约等于 f
理想的训练样本中 y 应该是发生的几率 但是实际中的数据 只有正负之分 可以把这样的数据集看成是具有噪声的数据
Logistics regression 做的事情就是将分数通过某一函数转化为0-1之间
常用的Logistics Regression为
对于线性分类 直接输出wTx 的符号 err为是否与label相等的个数
linear regression 使用的损失函数为 平方损失
那么对于逻辑回归而言
f(x) =p(+1|x) 所以当y等于+1的时候 P(y|x)=f(x) 当y=-1时 p(y|x)=1-f(x)
对于资料D f产生这些资料的概率为 上图左边的部分
即 p(x1)f(x1) p(x2)(1-f(x2))…
因为f是我们不知道的 我们通过h来近似替代f 所以如果f产生这些资料的概率和h产生这些资料的概率是一样的
又因为这些资料是真的从f产生的 那么使用f产生这些资料的概率是很大的 那么 同理 h用来近似代替 f 所以h产生这些资料的可能性也是很大的
所以learning algorithm 要做的是选择一个likelihood最大的h
又因为sigmod函数的特点 1-h(x)=h(-x)
同时对于hypothesis set中所有的h p(x1),p(x2)…都是一样的 所以似然函数正比于 h(xnyn) 的乘积
将连乘符号转化为连加 通过取对数的方式可得
同时将最大化转化为最小化某一损失函数,可以通过取负号得到
总结 logistics regression 推导过程
- 对于训练样本 D={(x1,y1),(x2,y2)…} 由f(x) 产生 理想状况下的数据分别为 当y = 1 时 f(x) =p(y|x) 当y=-1 时 f(x)=1-p(y|x)
- 通过 Learning Algorithm 在hypothesis set 中选取一个 h 使得h尽可能的接近f 对于f而言 p(x1,y1) = p(x1) * p(y1 | x1) 当y1等于1对于所有的xn均成立 同时y是由f(x)产生 因此p(y|x) 即f(x) 会很大
- 因为要求得一个和f相似的h所以 p(x)h(x)同理也会很大 所有演算法要找的就是 g=arg maxh likelihood(h).
- 因为h(x)=θ(wTx)=1/1+e-wTx 又因为 h(-x)=1-h(x)
转化为求最大似然
对Ein求导
求导使得Ein导数等于0 只有当θ等于0 即所有的xn ynWTxn都远大于0 即D线性可分
但是这又是不能保证的 ,因此这个问题较难求得闭式解
把w在梯度的反方向移动一小步