logistic回归分析优点_一文详尽系列之逻辑回归

本文详细介绍了逻辑回归模型,包括Logistic分布、Logistic回归的原理和数学表达,以及模型的优化方法如梯度下降和牛顿法。讨论了正则化在防止过拟合中的作用,L1和L2正则化的区别,并对比了逻辑回归与线性回归、最大熵模型、SVM和朴素贝叶斯的异同。同时,文章指出离散特征为何适合逻辑回归,并分析了平方误差损失函数的不足,强调了交叉熵损失在逻辑回归中的优势。
摘要由CSDN通过智能技术生成

Logistic Regression 是一个非常经典的算法,其中也包含了非常多的细节,曾看到一句话:如果面试官问你熟悉哪个机器学习模型,可以说 SVM,但千万别说 LR,因为细节真的太多了。

Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。

Logistic 回归的本质是:假设数据服从这个分布,然后使用极大似然估计做参数的估计。

1.1 Logistic 分布

Logistic 分布是一种连续型的概率分布,其分布函数密度函数分别为:

其中, 表示位置参数, 为形状参数。我们可以看下其图像特征:

ab546e1f3fc7b4dc964abc48b70793d3.png

Logistic 分布是由其位置和尺度参数定义的连续分布。Logistic 分布的形状与正态分布的形状相似,但是 Logistic 分布的尾部更长,所以我们可以使用 Logistic 分布来建模比正态分布具有更长尾部和更高波峰的数据分布。在深度学习中常用到的 函数就是 Logistic 的分布函数在 的特殊形式。

1.2 Logistic 回归

之前说到 Logistic 回归主要用于分类问题,我们以二分类为例,对于所给数据集假设存在这样的一条直线可以将数据完成线性可分。

fc89fad3a13e0aa4939c9c951e4868a4.png

决策边界可以表示为 ,假设某个样本点 那么可以判断它的类别为 1,这个过程其实是感知机。

Logistic 回归还需要加一层,它要找到分类概率 与输入向量 的直接关系,然后通过比较概率值来判断类别。

考虑二分类问题,给定数据集

考虑到 取值是连续的,因此它不能拟合离散变量。可以考虑用它来拟合条件概率 ,因为概率的取值也是连续的。

但是对于 (若等于零向量则没有什么求解的价值), 取值为 R ,不符合概率取值为 0 到 1,因此考虑采用广义线性模型。

最理想的是单位阶跃函数:

但是这个阶跃函数不可微,对数几率函数是一个常用的替代函数:

于是有:

我们将 视为 为正例的概率,则 为 为其反例的概率。两者的比值称为几率(odds),指该事件发生与不发生的概率比值,若事件发生的概率为 。则对数几率:

将 视为类后验概率估计,重写公式有:

也就是说,输出 的对数几率是由输入 的线性函数表示的模型,这就是逻辑回归模型。当 的值越接近正无穷, 概率值也就越接近 1。因此逻辑回归的思路是,先拟合决策边界(不局限于线性,还可以是多项式),再建立这个边界与分类的概率联系,从而得到了二分类情况下的概率。

在这我们思考个问题,我们使用对数几率的意义在哪?通过上述推导我们可以看到 Logistic 回归实际上是使用线性回归模型的预测值逼近分类任务真实标记的对数几率,其优点有:

  1. 直接对分类的概率建模,无需实现假设数据分布,从而避免了假设分布不准确带来的问题;
  2. 不仅可预测出类别,还能得到该预测的概率,这对一些利用概率辅助决策的任务很有用;
  3. 对数几率函数是任意阶可导的凸函数,有许多数值优化算法都可以求出最优解。

1.3 代价函数

逻辑回归模型的数学形式确定后,剩下就是如何去求解模型中的参数。在统计学中,常常使用极大似然估计法来求解,即找到一组参数,使得在这组参数下,我们的数据的似然度(概率)最大。

设:

似然函数:

为了更方便求解,我们对等式两边同取对数,写成对数似然函数:

在机器学习中我们有损失函数的概念,其衡量的是模型预测错误的程度。如果取整个数据集上的平均对数似然损失,我们可以得到:

即在逻辑回归模型中,我们最大化似然函数最小化损失函数实际上是等价的。

1.4 求解

求解逻辑回归的方法有非常多,我们这里主要聊下梯度下降和牛顿法。优化的主要目标是找到一个方向,参数朝这个方向移动之后使得损失函数的值能够减小,这个方向往往由一阶偏导或者二阶偏导各种组合求得。逻辑回归的损失函数是:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值