(LXTML笔记)回顾LR,logR,SGD

由于后面关于SVM和LR,logR的结合,这里有必要重新回顾一下LR,logR的一些相关内容。

Linear Regression

我们这里考虑的是平方误差,即

minwEin=1N||Xwy||2, m i n w E i n = 1 N | | X w − y | | 2 ,

我们考察 Ein=0 ∇ E i n = 0 ,即可以得到
这里写图片描述
这里关于 XTX X T X 的可逆性(概率)的讨论见PIA的矩阵分析讨论班的相关内容。

Logistic Regression

有时候不想分得过于绝对,而只是将结果集从 {1,+1}[0,1] { − 1 , + 1 } → [ 0 , 1 ] 上的连续量。继续用线性模型,即用 s=wTx s = w T x 来作为打分函数,引入光滑可微单调的sigmoid函数
这里写图片描述

接下来用likelihood的思想来给出模型,我们不妨设 f(x)=P(+1|x) f ( x ) = P ( + 1 | x ) ,即 x x 被正确分类的结果,如下图所示:
这里写图片描述
对于给定的数据集D,其每一个数据点都分类正确的概率应该是如绿色框所示的乘积,
这里写图片描述
注意到图的左上角关于 P(y|x) P ( y | x ) 的结果,我们可以化简绿色框的公式如上图所示,但是由于我们并不知道真实的 f f ,所以我们此时用极大似然法来用h来替代 f f ,注意到,如果我们用sigmoid函数的话,我们有h(x)=1h(x),根据这个性质,我们可以化简有
这里写图片描述
为了方便,根据常用的一些套路对其做点一般同解的小变换,即将问题转换为如下最优化问题
这里写图片描述
接下来便是用GD法来求解这个非线性的最优化问题

SGD

随机梯度下降针对的主要是一种形如

f(w)=i=1nfi(w,xi,yi), f ( w ) = ∑ i = 1 n f i ( w , x i , y i ) ,

这样函数的优化问题。
根据GD的办法我们有
wi+1=wiαi=1nwfi(w,xi,yi), w i + 1 = w i − α ⋅ ∑ i = 1 n ∇ w f i ( w , x i , y i ) ,

但是由于要算一个 ,这个过程要过一遍所有的数据,即 O(N) O ( N ) ,SGD的思想是我们随机只取一个点 (xj,yj) ( x j , y j ) ,利用如下新的迭代公式
wi+1=wiαwfj(w,xj,yj), w i + 1 = w i − α ⋅ ∇ w f j ( w , x j , y j ) ,

虽然这个操作很暴力,但是居然很多时候是能达到最优解的,不过关于这个的细节我也不是太清楚,包括收敛性,停止条件,为什么这样的选择在期望上是可以的等等诸多问题。
而Logistic Regression恰好满足这样的优化形式
这里写图片描述
这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值