目录
1、简介
对于线性模型家族而言,其包括逻辑回归(logistic)与线性支持向量机(线性SVM),它们需要拟合的目标函数都是线性函数,虽然线性函数的建模能力有限,但当特征向量维数很高、训练样本数很大时它具有速度上的优势,在大规模分类应用中比较合适。
2、逻辑回归(logistic回归)
逻辑回归即对数概率回归,虽然叫“回归”,但是却是一种用于二分类问题的分类算法,它用sigmoid函数估计出样本属于正样本的概率。
2.1、逻辑回归的第一种表述
2.1.1、概念描述
对于一个样本的特征向量,sigmoid函数可以输出它属于某一类的概率(0~1的概率值),所以sigmoid函数可以作为该样本集的分类函数:
由函数的性质可以知道,sigmoid函数的值域为(0,1),同时又是一个单调递增的函数。
根据对分类函数的要求,sigmoid函数可以用于最为随机变量x的分布函数,即
|
对于实际的数据集通常属于高维度的数据,特征向量一般也是多维的,所以先用一个线性函数把输入特征向量x映射为一个实数z即可,同时预测函数也可以得到如下:
|
对于上述z的表达,实际上就是线性回归,logistic函数并不能改变线性模型的本质,其中:
|
|
样本属于正样本和分样本的概率分别为:
|
其中,y为类别标签,取值为0或1,分别对应负样本和正样本,样本属于正样本和负样本概率值的对数称为对数似然比:
|
分类的规则为:如果正样本的概率大于负样本的概率,即h(x)>0.5,则样本被判定为正样本,否则判定为负样本,也就等价于:
|
从上式也可以看出。逻辑回归是一个线性模型。
2.1.2、凸函数证明
假设训练样本集为 ,其中, 为 n 维向量, 为类别标签,取值为1或0。给定参数 w 和样本特征 x,样本属于每个类的概率可以统一写为如下的形式:
|
logistic回归输出的是样本属于一个类的概率,而样本的类别标签为分散的1或者0,因此不适合直接使用欧式距离误差来定义损失函数,接下来通过最大似然估计来确定参数,由于样本之间相互独立,训练样本集的似然函数为:
|
上述函数对应于 n 重伯努利分布,对数似然函数为:
|
上述的函数称为二项式对数似然函数(Binomial Log-Likelihood)。要求该函数的最大值等价于下面函数的最小值:
|
对 logistic 回归函数求梯度 :
对于梯度再次求导,得到 Hessian 矩阵:
|
如果单个样本的特征向量为 ,矩阵Xi定义为:
|
此 Hessian 矩阵可以写成如下的点乘的形式:
|
对于任意不为 0 的向量 x 有:
|
从而矩阵Xi是半正定的,另外由于 ,因此,Hessian矩阵半正定,目标函数为凸函数。
类似地,如果使用欧式距离作为目标函数,则无法保证目标函数为凸函数,函数可能会收敛到局部最优解,这是逻辑回归使用交叉熵而不使用欧式距离的主要原因之一。
2.2、逻辑回归的第二种表述
采用预测函数和似然函数的形式,假设二分类问题两个类别标签为 +1 和 -1,前面第一种表述写法的类别标签为1和0.一个样本的为每一类的概率统一写为:
样本时正样本和负样本的概率分别为:
给定一组训练样本的特征 以及它们的标签 ,logistic回归的对数似然函数为:
求该函数的极大值等价于求解如下函数的极小值问题:
根据前面给出的公式,给定一组样本,可以得到似然函数为:
|
对数似然函数为:
求该函数的极大值等价于求解其负函数的极小值,由此得到目标函数为:
|
对特征向量 和权重向量 继续宁扩充,定义如下:
|
由此目标函数可以简化为:
|
可以证明该函数也是凸函数。