1.基本形式
线性模型:给定一组样本X=(x1,x2...xd),其中xi是X在第i个属性上的取值,通过属性线性组合来预测函数
其中W=(w1,w2...wd)分别为各个属性xi的权重。
1.1线性回归:数据集D={(x1,y1),(x2,y2)...(xm,ym)},其中xi={xi1,xi2...xid},yi是实数,寻找一个线性模型使得尽可能准确预测实值输出标记。
多元线性回归:
让W`=(W;b),取xi`=(xi:1),有f(xi) = W`*xi`;
数据集D转化为矩阵X
真实标记Y=(y1,y2...ym) 线性模型的预测值为X*W`,预测值与真实值之间的误差采用均方误差:
目标是求得W`使得均方误差Ew最小,即
Ew对于w求导==0
1.当XTX为满秩矩阵时,得到最优解:
此时线性模型为:
其中xi`=(xi1,xi2....xid,1);
2.若XTX不是满秩矩阵,则可得到多个W`的最优解,此时可以考虑归纳偏好以及引入正则化等。
1.2对数线性回归 输入空间到输出空间的非线性映射
1.3广义线性模型:
g()为联系函数。建立输入x到输出y的非线性映射。
2.逻辑回归LR---分类方法,给出类别信息以及概率值
实现线性模型来进行分类,即输出y取值有0,1两种。这里取g()使得输出取值只是0或1,一般使用单位阶跃函数或者对数似然函数Sigmoid函数。
将y=wx+b代入,可得:
变换为:
当y>0.5时,类别为1;相反类别为0.
LR优点:直接对分类可能性建模,不需要考虑数据分布,避免了假设分布不准确带来的误差;可以得到近似概率误差;求解方便。
求解
令y表示为已知样本x条件下分类为1的概率,有p(y=1|x) = y p(y=0|x)=1-y
有:
通过极大似然估计有:
令
有:
L()函数是一个高阶可导的函数,可以采用梯度下降,牛顿法等求解。
3.梯度下降求解LR最优化问题
换一种方式推到LR的梯度下降解法,取Sigmoid函数 线性模型
有
其中hx表示了输出为1的概率,当hx=1时,y=1 hx=0时,y=0 即hx的输出表示了分类为1的概率
p(y|x)的概率函数为:
代价函数使用似然估计:
代入有:
取对数似然:
这里求l()最大值,做一下变换J()
即求J()的最小值,可以使用梯度下降:
若直接对l()梯度上升,也可以求得:
取线性模型初始权重均为1,依次进行梯度上升求解,改变每个权重的值,求得最优解。