机器学习回顾与总结之——线性模型

目录

1、简介

2、逻辑回归(logistic回归)

2.1、逻辑回归的第一种表述

2.1.1、概念描述

2.1.2、凸函数证明

2.2、逻辑回归的第二种表述


1、简介

对于线性模型家族而言,其包括逻辑回归(logistic)与线性支持向量机(线性SVM),它们需要拟合的目标函数都是线性函数,虽然线性函数的建模能力有限,但当特征向量维数很高、训练样本数很大时它具有速度上的优势,在大规模分类应用中比较合适。

2、逻辑回归(logistic回归)

逻辑回归即对数概率回归,虽然叫“回归”,但是却是一种用于二分类问题的分类算法,它用sigmoid函数估计出样本属于正样本的概率。

2.1、逻辑回归的第一种表述

2.1.1、概念描述

对于一个样本的特征向量,sigmoid函数可以输出它属于某一类的概率(0~1的概率值),所以sigmoid函数可以作为该样本集的分类函数:

$${ {\color{Red} h(z)=\frac{1}{1+exp(-z)}}}$$

由函数的性质可以知道,sigmoid函数的值域为(0,1),同时又是一个单调递增的函数。

根据对分类函数的要求,sigmoid函数可以用于最为随机变量x的分布函数,即

 {\color{Red} p(x\leqslant z)=h(z)}

对于实际的数据集通常属于高维度的数据,特征向量一般也是多维的,所以先用一个线性函数把输入特征向量x映射为一个实数z即可,同时预测函数也可以得到如下:

{\color{Red} z=w_0+w_1\cdot{x_1}+...+w_n\cdot{x_n}}

     {\color{Red} h(z)=\frac{1}{1+exp(-w^Tx)}}

对于上述z的表达,实际上就是线性回归,logistic函数并不能改变线性模型的本质,其中:

{\color{Red} z=w^T\cdot{x}=w_0+w_1\cdot{x_1}+...+w_n\cdot{x_n}}

                {\color{Red} x=[1,x_1,x_2,...,x_n]^T}

                {\color{Red} w=[w_0,w_1,...,w_n]^T}

样本属于正样本和分样本的概率分别为:

   {\color{Red} p(y=1|x)=h(x)}

{\color{Red} p(y=0|x)=1-h(x)}

其中,y为类别标签,取值为0或1,分别对应负样本和正样本,样本属于正样本和负样本概率值的对数称为对数似然比:

   {\color{Red} ln\frac{p(y=1|x)}{p(y=0|x)}=ln\frac{\frac{1}{1+exp(-w^T\cdot{x})}}{1-\frac{1}{1+exp(-w^T\cdot{x})}}=w^T\cdot{x}}

分类的规则为:如果正样本的概率大于负样本的概率,即h(x)>0.5,则样本被判定为正样本,否则判定为负样本,也就等价于:

  {\color{Red} \frac{h(x)}{1-h(x)}=\frac{p(y=1|x)}{p(y=0|x)}>1\Rightarrow w^T\cdot{x}>0}

从上式也可以看出。逻辑回归是一个线性模型。

2.1.2、凸函数证明

假设训练样本集为 (x_i,y_i),i=1,2,....,l ,其中,x_i 为 n 维向量,y_i 为类别标签,取值为1或0。给定参数 w 和样本特征 x,样本属于每个类的概率可以统一写为如下的形式:

                    {\color{Red} p(y|x,w)=(h(x)^y(1-h(x))^{1-y})}

logistic回归输出的是样本属于一个类的概率,而样本的类别标签为分散的1或者0,因此不适合直接使用欧式距离误差来定义损失函数,接下来通过最大似然估计来确定参数,由于样本之间相互独立,训练样本集的似然函数为:

    {\color{Red} L(w)=\prod_{i=1}^{l}p(y_i|x_i,w)=\prod_{i=1}^{l}(h(x_i)^{y_i}(1-h(x_i))^{1-y_i})}

上述函数对应于 n 重伯努利分布,对数似然函数为:

    {\color{Red} lnL(w)=\sum_{i=1}^{l}(y_ilnh(x_i)+(1-y_i)ln(1-h(x_i)))}

上述的函数称为二项式对数似然函数(Binomial Log-Likelihood)。要求该函数的最大值等价于下面函数的最小值:

  {\color{Red} f(w)=-\sum_{i=1}^{l}(y_iln(h(x_i)+(1-y_{i})ln(1-h(x_i)))}

对 logistic 回归函数求梯度 \triangledown_{w}f(w)

=-\sum_{i=1}^{l}(\frac{y_i}{h(x_i)}h(x_i)(1-h(x_i))\triangledown_w(w^Tx_i)-\frac{(1-y_i)}{1-h(x_i)}h(x_i)(1-h(x_i))\triangledown_w(w^Tx_i) )
=-\sum_{i=1}^{l}(y_i(1-h(x_i))x_i-(1-y_i)h(x_i)x_i)
=-\sum_{i=1}^{l}(y_i-y_ih(x_i)-h(x_i)+y_ih(x_i))x_i
=\sum_{i=1}^{l}(h(x_i)-y_i)x_i

对于梯度再次求导,得到 Hessian 矩阵:

              \triangledown_{w}^{2}f(w)=\sum_{i=1}^{l}h(x_i)(1-h(x_i))X_i

如果单个样本的特征向量为 x_i=[x_{i1},x_{i2},...,x_{in}]^T ,矩阵Xi定义为:

                     X_i=\begin{bmatrix} x_{i1}^{2}& ...& x_{i1}x_{in}\\ ...& ...& ...\\ x_{in}x_{i1}&... & x_{in}^{2} \end{bmatrix}

此 Hessian 矩阵可以写成如下的点乘的形式:

                                        X_i=x_ix^T_i

对于任意不为 0 的向量 x 有:

          x^TX_ix=x^T(x_ix_i^T)x=x^Tx_ix_i^Tx=(x^Tx_i)(x_i^Tx)\geqslant 0

从而矩阵Xi是半正定的,另外由于 h(x_i)(1-h(x_i))>0,因此,Hessian矩阵半正定,目标函数为凸函数。

类似地,如果使用欧式距离作为目标函数,则无法保证目标函数为凸函数,函数可能会收敛到局部最优解,这是逻辑回归使用交叉熵而不使用欧式距离的主要原因之一。

2.2、逻辑回归的第二种表述

采用预测函数和似然函数的形式,假设二分类问题两个类别标签为 +1 和 -1,前面第一种表述写法的类别标签为1和0.一个样本的为每一类的概率统一写为:

{\color{Red} p(y=\pm 1|x,w)=\frac{1}{1+exp(-y(w^Tx+b))}}

样本时正样本和负样本的概率分别为:

{\color{Red} p(y=+1|x,w)=\frac{1}{1+exp(-w^Tx-b)}}

{\color{Red} p(y=-1|x,w)=\frac{1}{1+exp(w^Tx+b)}}

给定一组训练样本的特征 {\color{Red} x_i} 以及它们的标签  {\color{Red} y_i} ,logistic回归的对数似然函数为:

{\color{Red} -\sum_{i=1}^{l} ln{(1+exp(-y_i(w^Tx+b)))}}

求该函数的极大值等价于求解如下函数的极小值问题:

{\color{Red} min_{w,b}\sum_{i=1}^{l} ln{(1+exp(-y_i(w^Tx+b)))}}

根据前面给出的公式,给定一组样本,可以得到似然函数为:

                {\color{Red} L(w,b)=\prod_{i=1}^{l}\frac{1}{1+exp(-y_i(w^Tx_i+b))} }

对数似然函数为:

{\color{Red} ln\prod_{i=1}^{l}\frac{1}{1+exp(-y_i(w^Tx_i+b))} =-\sum_{i=1}^{l}ln(1+exp(-y_i(w^Tx_i+b)))}

求该函数的极大值等价于求解其负函数的极小值,由此得到目标函数为:

                     {\color{Red} f(w,b)=\sum_{i=1}^{l}ln(1+exp(-y_i(w^Tx_i+b)))]}

对特征向量 {\color{Red} x_i} 和权重向量 {\color{Red} w^T_i} 继续宁扩充,定义如下:

                            {\color{Red} x^T\leftarrow [x^T,1] ;w^T\leftarrow[w^T,b]}

由此目标函数可以简化为:

                                   {\color{Red} \sum_{i=1}^{l}ln(1+e^{-y_iw^Tx_i})}

可以证明该函数也是凸函数。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值