（LXTML笔记）回顾LR，logR，SGD

最新推荐文章于 2021-02-09 06:31:38 发布

windede

最新推荐文章于 2021-02-09 06:31:38 发布

阅读量354

点赞数

分类专栏：算法学习 LXTML

本文链接：https://blog.csdn.net/qq_23997101/article/details/79388434

版权

算法学习同时被 2 个专栏收录

29 篇文章 0 订阅

订阅专栏

LXTML

13 篇文章 0 订阅

订阅专栏

由于后面关于SVM和LR，logR的结合，这里有必要重新回顾一下LR，logR的一些相关内容。

Linear Regression

我们这里考虑的是平方误差，即

m i n w E i n = 1 N | | X w - y | | 2,

$min_w E_{in}=\frac{1}{N}||Xw-y||^2,$
我们考察

∇Ein=0 ∇ E i n = 0 $\nabla E_{in}=0$ ，即可以得到
这里写图片描述

这里关于

XTX X T X $X^TX$ 的可逆性（概率）的讨论见PIA的矩阵分析讨论班的相关内容。

Logistic Regression

有时候不想分得过于绝对，而只是将结果集从 $\{-1,+1\} \to [0,1]$ 上的连续量。继续用线性模型，即用 $s=w^Tx$ 来作为打分函数，引入光滑可微单调的sigmoid函数
这里写图片描述

接下来用likelihood的思想来给出模型，我们不妨设 $f(x)=P(+1|x)$ ，即 $x$ 被正确分类的结果，如下图所示：
这里写图片描述
对于给定的数据集 $D$ ，其每一个数据点都分类正确的概率应该是如绿色框所示的乘积，

注意到图的左上角关于 $P(y|x)$ 的结果，我们可以化简绿色框的公式如上图所示，但是由于我们并不知道真实的 $f$ ，所以我们此时用极大似然法来用 $h$ 来替代 $f$ ，注意到，如果我们用sigmoid函数的话，我们有 $h(-x)=1-h(x)$ ，根据这个性质，我们可以化简有
这里写图片描述
为了方便，根据常用的一些套路对其做点一般同解的小变换，即将问题转换为如下最优化问题

接下来便是用GD法来求解这个非线性的最优化问题

SGD

随机梯度下降针对的主要是一种形如

f (w) = \sum i = 1 n f i (w, x i, y i),

$f(w)=\sum_{i=1}^nf_i(w,x_i,y_i),$
这样函数的优化问题。
根据GD的办法我们有

w i + 1 = w i - α \cdot \sum i = 1 n \nabla w f i (w, x i, y i),

$w_{i+1}=w_i-\alpha \cdot \sum_{i=1}^n\nabla_w f_i(w,x_i,y_i),$
但是由于要算一个

∑ ∑ $\sum$ ，这个过程要过一遍所有的数据，即

O(N) O ( N ) $O(N)$ ,SGD的思想是我们随机只取一个点

(xj,yj) ( x j , y j ) $(x_j,y_j)$ ，利用如下新的迭代公式

w i + 1 = w i - α \cdot \nabla w f j (w, x j, y j),

$w_{i+1}=w_i-\alpha \cdot \nabla_w f_j(w,x_j,y_j),$
虽然这个操作很暴力，但是居然很多时候是能达到最优解的，不过关于这个的细节我也不是太清楚，包括收敛性，停止条件，为什么这样的选择在期望上是可以的等等诸多问题。
而Logistic Regression恰好满足这样的优化形式
这里写图片描述

windede

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（LXTML笔记）回顾LR，logR，SGD

由于后面关于SVM和LR，logR的结合，这里有必要重新回顾一下LR，logR的一些相关内容。Linear Regression我们这里考虑的是平方误差，即 minwEin=1N||Xw−y||2,minwEin=1N||Xw−y||2,min_w E_{in}=\frac{1}{N}||Xw-y||^2, 我们考察∇Ein=0∇Ein=0\nabla E_{in}=0，即可以得到...
复制链接

扫一扫

专栏目录