由于后面关于SVM和LR,logR的结合,这里有必要重新回顾一下LR,logR的一些相关内容。
Linear Regression
我们这里考虑的是平方误差,即
我们考察 ∇Ein=0 ∇ E i n = 0 ,即可以得到
这里关于 XTX X T X 的可逆性(概率)的讨论见PIA的矩阵分析讨论班的相关内容。
Logistic Regression
有时候不想分得过于绝对,而只是将结果集从
{−1,+1}→[0,1]
{
−
1
,
+
1
}
→
[
0
,
1
]
上的连续量。继续用线性模型,即用
s=wTx
s
=
w
T
x
来作为打分函数,引入光滑可微单调的sigmoid函数
接下来用likelihood的思想来给出模型,我们不妨设
f(x)=P(+1|x)
f
(
x
)
=
P
(
+
1
|
x
)
,即
x
x
被正确分类的结果,如下图所示:
对于给定的数据集,其每一个数据点都分类正确的概率应该是如绿色框所示的乘积,
注意到图的左上角关于
P(y|x)
P
(
y
|
x
)
的结果,我们可以化简绿色框的公式如上图所示,但是由于我们并不知道真实的
f
f
,所以我们此时用极大似然法来用来替代
f
f
,注意到,如果我们用sigmoid函数的话,我们有,根据这个性质,我们可以化简有
为了方便,根据常用的一些套路对其做点一般同解的小变换,即将问题转换为如下最优化问题
接下来便是用GD法来求解这个非线性的最优化问题
SGD
随机梯度下降针对的主要是一种形如
这样函数的优化问题。
根据GD的办法我们有
但是由于要算一个 ∑ ∑ ,这个过程要过一遍所有的数据,即 O(N) O ( N ) ,SGD的思想是我们随机只取一个点 (xj,yj) ( x j , y j ) ,利用如下新的迭代公式
虽然这个操作很暴力,但是居然很多时候是能达到最优解的,不过关于这个的细节我也不是太清楚,包括收敛性,停止条件,为什么这样的选择在期望上是可以的等等诸多问题。
而Logistic Regression恰好满足这样的优化形式