机器学习回顾与总结之——线性模型

最新推荐文章于 2023-07-27 16:34:39 发布

ChaucerG

最新推荐文章于 2023-07-27 16:34:39 发布

阅读量334

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/qq_24819773/article/details/102676719

版权

机器学习算法专栏收录该内容

14 篇文章 3 订阅

订阅专栏

1、简介

对于线性模型家族而言，其包括逻辑回归（logistic）与线性支持向量机（线性SVM），它们需要拟合的目标函数都是线性函数，虽然线性函数的建模能力有限，但当特征向量维数很高、训练样本数很大时它具有速度上的优势，在大规模分类应用中比较合适。

2、逻辑回归（logistic回归）

逻辑回归即对数概率回归，虽然叫“回归”，但是却是一种用于二分类问题的分类算法，它用sigmoid函数估计出样本属于正样本的概率。

2.1、逻辑回归的第一种表述

2.1.1、概念描述

对于一个样本的特征向量，sigmoid函数可以输出它属于某一类的概率（0~1的概率值），所以sigmoid函数可以作为该样本集的分类函数：

${ {\color{Red} h(z)=\frac{1}{1+exp(-z)}}}$

由函数的性质可以知道，sigmoid函数的值域为（0，1），同时又是一个单调递增的函数。

根据对分类函数的要求，sigmoid函数可以用于最为随机变量x的分布函数，即

${\color{Red} p(x\leqslant z)=h(z)}$

对于实际的数据集通常属于高维度的数据，特征向量一般也是多维的，所以先用一个线性函数把输入特征向量x映射为一个实数z即可，同时预测函数也可以得到如下：

${\color{Red} z=w_0+w_1\cdot{x_1}+...+w_n\cdot{x_n}}$

${\color{Red} h(z)=\frac{1}{1+exp(-w^Tx)}}$

对于上述z的表达，实际上就是线性回归，logistic函数并不能改变线性模型的本质，其中：

${\color{Red} z=w^T\cdot{x}=w_0+w_1\cdot{x_1}+...+w_n\cdot{x_n}}$

${\color{Red} x=[1,x_1,x_2,...,x_n]^T}$

${\color{Red} w=[w_0,w_1,...,w_n]^T}$

样本属于正样本和分样本的概率分别为：

${\color{Red} p(y=1|x)=h(x)}$

${\color{Red} p(y=0|x)=1-h(x)}$

其中，y为类别标签，取值为0或1，分别对应负样本和正样本，样本属于正样本和负样本概率值的对数称为对数似然比：

${\color{Red} ln\frac{p(y=1|x)}{p(y=0|x)}=ln\frac{\frac{1}{1+exp(-w^T\cdot{x})}}{1-\frac{1}{1+exp(-w^T\cdot{x})}}=w^T\cdot{x}}$

分类的规则为：如果正样本的概率大于负样本的概率，即h(x)>0.5,则样本被判定为正样本，否则判定为负样本，也就等价于：

${\color{Red} \frac{h(x)}{1-h(x)}=\frac{p(y=1|x)}{p(y=0|x)}>1\Rightarrow w^T\cdot{x}>0}$

从上式也可以看出。逻辑回归是一个线性模型。

2.1.2、凸函数证明

假设训练样本集为 $(x_i,y_i),i=1,2,....,l$ ,其中， $x_i$ 为 n 维向量， $y_i$ 为类别标签，取值为1或0。给定参数 w 和样本特征 x，样本属于每个类的概率可以统一写为如下的形式：

${\color{Red} p(y|x,w)=(h(x)^y(1-h(x))^{1-y})}$

logistic回归输出的是样本属于一个类的概率，而样本的类别标签为分散的1或者0，因此不适合直接使用欧式距离误差来定义损失函数，接下来通过最大似然估计来确定参数，由于样本之间相互独立，训练样本集的似然函数为：

${\color{Red} L(w)=\prod_{i=1}^{l}p(y_i|x_i,w)=\prod_{i=1}^{l}(h(x_i)^{y_i}(1-h(x_i))^{1-y_i})}$

上述函数对应于 n 重伯努利分布，对数似然函数为：

${\color{Red} lnL(w)=\sum_{i=1}^{l}(y_ilnh(x_i)+(1-y_i)ln(1-h(x_i)))}$

上述的函数称为二项式对数似然函数（Binomial Log-Likelihood）。要求该函数的最大值等价于下面函数的最小值：

${\color{Red} f(w)=-\sum_{i=1}^{l}(y_iln(h(x_i)+(1-y_{i})ln(1-h(x_i)))}$

对 logistic 回归函数求梯度 $\triangledown_{w}f(w)$ ：

$=-\sum_{i=1}^{l}(\frac{y_i}{h(x_i)}h(x_i)(1-h(x_i))\triangledown_w(w^Tx_i)-\frac{(1-y_i)}{1-h(x_i)}h(x_i)(1-h(x_i))\triangledown_w(w^Tx_i) )$

$=-\sum_{i=1}^{l}(y_i(1-h(x_i))x_i-(1-y_i)h(x_i)x_i)$

$=-\sum_{i=1}^{l}(y_i-y_ih(x_i)-h(x_i)+y_ih(x_i))x_i$

$=\sum_{i=1}^{l}(h(x_i)-y_i)x_i$

对于梯度再次求导，得到 Hessian 矩阵：

$\triangledown_{w}^{2}f(w)=\sum_{i=1}^{l}h(x_i)(1-h(x_i))X_i$

如果单个样本的特征向量为 $x_i=[x_{i1},x_{i2},...,x_{in}]^T$ ,矩阵Xi定义为：

$X_i=\begin{bmatrix} x_{i1}^{2}& ...& x_{i1}x_{in}\\ ...& ...& ...\\ x_{in}x_{i1}&... & x_{in}^{2} \end{bmatrix}$

此 Hessian 矩阵可以写成如下的点乘的形式：

$X_i=x_ix^T_i$

对于任意不为 0 的向量 x 有：

$x^TX_ix=x^T(x_ix_i^T)x=x^Tx_ix_i^Tx=(x^Tx_i)(x_i^Tx)\geqslant 0$

从而矩阵Xi是半正定的，另外由于 $h(x_i)(1-h(x_i))>0$ ，因此，Hessian矩阵半正定，目标函数为凸函数。

类似地，如果使用欧式距离作为目标函数，则无法保证目标函数为凸函数，函数可能会收敛到局部最优解，这是逻辑回归使用交叉熵而不使用欧式距离的主要原因之一。

2.2、逻辑回归的第二种表述

采用预测函数和似然函数的形式，假设二分类问题两个类别标签为 +1 和 -1，前面第一种表述写法的类别标签为1和0.一个样本的为每一类的概率统一写为：

${\color{Red} p(y=\pm 1|x,w)=\frac{1}{1+exp(-y(w^Tx+b))}}$

样本时正样本和负样本的概率分别为：

${\color{Red} p(y=+1|x,w)=\frac{1}{1+exp(-w^Tx-b)}}$

${\color{Red} p(y=-1|x,w)=\frac{1}{1+exp(w^Tx+b)}}$

给定一组训练样本的特征 ${\color{Red} x_i}$ 以及它们的标签 ${\color{Red} y_i}$ ，logistic回归的对数似然函数为：

${\color{Red} -\sum_{i=1}^{l} ln{(1+exp(-y_i(w^Tx+b)))}}$

求该函数的极大值等价于求解如下函数的极小值问题：

${\color{Red} min_{w,b}\sum_{i=1}^{l} ln{(1+exp(-y_i(w^Tx+b)))}}$

根据前面给出的公式，给定一组样本，可以得到似然函数为：

${\color{Red} L(w,b)=\prod_{i=1}^{l}\frac{1}{1+exp(-y_i(w^Tx_i+b))} }$

对数似然函数为：

${\color{Red} ln\prod_{i=1}^{l}\frac{1}{1+exp(-y_i(w^Tx_i+b))} =-\sum_{i=1}^{l}ln(1+exp(-y_i(w^Tx_i+b)))}$

求该函数的极大值等价于求解其负函数的极小值，由此得到目标函数为：

${\color{Red} f(w,b)=\sum_{i=1}^{l}ln(1+exp(-y_i(w^Tx_i+b)))]}$

对特征向量 ${\color{Red} x_i}$ 和权重向量 ${\color{Red} w^T_i}$ 继续宁扩充，定义如下：

${\color{Red} x^T\leftarrow [x^T,1] ;w^T\leftarrow[w^T,b]}$

由此目标函数可以简化为：

${\color{Red} \sum_{i=1}^{l}ln(1+e^{-y_iw^Tx_i})}$

可以证明该函数也是凸函数。

ChaucerG

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习回顾与总结之——线性模型

目录1、简介2、逻辑回归（logistic回归）2.1、逻辑回归的第一种表述2.1.1、概念描述2.1.2、凸函数证明2.2、逻辑回归的第二种表述1、简介对于线性模型家族而言，其包括逻辑回归（logistic）与线性支持向量机（线性SVM），它们需要拟合的目标函数都是线性函数，虽然线性函数的建模能力有限，但当特征向量维数很高、训练样本数很大时它具有速度上的优势，在大...
复制链接

扫一扫