多分类svm的hinge loss公式推导_二分类逻辑回归与多分类逻辑回归的公式推导

91efed7a7c4a21d4825ef597fb849dd2.png

逻辑回归(Logistic Regression)是机器学习最经典的方法之一,且它属于一种有监督学习(Supervised Learning)方法。它的输出为概率,并依据概率将样本归类,其中包括二分类问题与多分类问题。二分类逻辑回归模型输出一个值,该值用于表示样本属于其中一类的概率,多分类逻辑回归模型的输出结果为所有类别的概率分布。本文将分别对二分类逻辑回归模型与多分类逻辑回归进行公式推导。

1. 二分类逻辑回归 (Binary Logistic Regression)

(1) 模型介绍

二分类逻辑回归模型的示意图如图所示,输入为特征向量,先将特征向量的各元素加权求和,然后输入Sigmoid激活函数,最后得到一个0到1之间的值,该值用于表示样本属于其中一类的概率。逻辑回归训练的过程是通过创造基于极大似然估计原理的损失函数(Loss Function),并利用梯度下降法更新模型中的权重,使得损失函数达到最小。

0c611e5f1f402d186b0343995976d116.png

假设有给定

个带标签的样本(已知每个样本的类别),
,其中
是一个维度为
的特征向量,该向量末尾为1,代表偏置项(bias);标签
表示两类别中的一类,分别由-1和1表示;设模型的权重向量
;定义模型的输出为样本属于1的概率,则对于特征向量
,其模型输出的预测值
的表达式为

(2) 损失函数介绍

对于逻辑回归模型,我们希望找到一个权重向量

,使得在训练集中模型的输出与给定的标签越接近越好,及若标签为1,则模型输出值越接近1,若标签为-1,则模型输出值越接近于0;换一种思考的角度就是:若标签为1,则最大化
,也就是
,若标签为-1,则最大化
,也就是
;进一步地,我们可以将上述思路表达成一种更简洁的方式,及最大化
。 由于有
个样本,因此可采用极大似然估计(maximun-likelihood)法建立一个似然函数
,并希望将其最大化

(2)中连乘符号可以通过取对数的方式变为求和符号,因此一般采用对数似然函数

函数来表示,及

这里我们添加一个负号,将原来的最大化变为最小化,因此上式(3)就是逻辑回归中需要最小化的损失函数,通过梯度下降法寻找一个

,使得损失函数(3)达到最小。

(3) 梯度下降法迭代计算权重

逻辑回归的训练过程的意图是希望得到权重向量

使得损失函数的值最小,因此最传统的方法就是让损失函数对
的导数为0,及

这里的0被加粗,表明损失函数对所有权重的导数值都为0。 显然损失函数(3)是一个较为复杂的非线性函数,我们很难采用解析的方式求得上式的解或解集,因此采用计算机比较青睐的数值求解法,及采用机器学习领域中最重要的数值求解方法之一,梯度下降法(SGradient Descent),其表达式如下

其中

为学习率,及搜索权重值的步长,
为梯度(Gradient),"-"表示权重的更新方向是朝损失函数减小的方向;通过循环迭代,直到满足迭代停止条件。 根据式(2)(3),二分类逻辑回归的梯度
计算方法如下

因此,根据(5),得权重更新的表达式为

2. 多分类逻辑回归 (Multinomial Logistic Regression)

(1) 模型介绍

多分类逻辑回归的示意图如图所示,与二分类逻辑回归不同的是,其输出是一个概率分布,用于表示每个类别的概率;此外,多分类逻辑回归不使用Sigmoid函数作为激活函数,而是采用了Softmax函数将特征的加权求和结果映射到概率分布中。

dc329c5898c3a629947f925125f96424.png

假设有给定

个带标签的样本(已知每个样本的类别),
,其中
是一个维度为
的特征向量,该向量末尾为1,代表偏置项(bias);标签
表示
个类别中的一类;每个类别对应一个权重向量,总共
个权重向量,设第
个类别的权重向量为
。 既然模型的输出是一个概率分布,那必然满足所有类别的概率值的和为1,那什么样的函数可以满足这一特性呢?答案是Softmax函数,该函数可以理解为样本点
属于类别
的后验概率
,其表达式如下

通过对所有类别调用Softmax函数,可求得概率分布,并且满足

(2) 损失函数介绍

这里同样采用极大似然估计先建立似然函数表达式

接着通过取对数获得损失函数表达式

(3) 梯度下降法迭代计算权重

我们仍然采用梯度下降法来更新权重。 首先我们设

,表示特征向量
与第
类别对应权重
的向量积。 接下来,我们来推导损失函数
对于权重
的梯度表达式

上式第二行,我们能够将

消除的原因是:当
偏导数为0。

因此,权重向量

(
)的更新公式如下

3. 小结

  1. 二分类逻辑回归模型的输入为特征向量,输出为0到1之间的值,用于表示该样本属于某一类的概率;多分类逻辑回归模型的输入为特征向量,输出为各个类别的概率分布。
  2. 二分类逻辑回归模型使用Sigmoid函数将特征向量与权重向量的向量积映射到0到1之间,而多分类逻辑回归模型则使用Softmax函数将将特征向量与权重向量的向量积映射到概率分布中。
  3. 不管是二分类逻辑回归还是多分类逻辑回归,都需构建一个合理的损失函数,并采用梯度下降法来更新模型参数。

参考资料

  1. 机器学习与深度学习
  2. 逻辑回归 logistics regression 公式推导
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值