【原创】Logistic regression （逻辑回归）概述

最新推荐文章于 2022-12-04 14:12:18 发布

苏冉旭

最新推荐文章于 2022-12-04 14:12:18 发布

阅读量2.9k

点赞数 2

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/suranxu007/article/details/49927967

版权

逻辑回归是用于估计离散取值可能性的机器学习方法，常见于用户行为预测、疾病诊断等领域。它由线性回归与Logistic方程组成，将线性回归结果归一化到0~1之间。虽然结果表示可能性而非概率，但在概率预测和分类任务中有广泛用途。适用场景需满足线性关系，且各特征独立计算贡献。

摘要由CSDN通过智能技术生成

Logistic regression （逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。（注意这里是：“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘）

那么它究竟是什么样的一个东西，又有哪些适用情况和不适用情况呢？

一、官方定义：

，

Figure 1. The logistic function, with zon the horizontal axis and ƒ(z) on the vertical axis

逻辑回归是一个学习f:X− > Y 方程或者P(Y|X)的方法，这里Y是离散取值的，X= < X1,X2...,Xn > 是任意一个向量其中每个变量离散或者连续取值。

二、我的解释

只看公式太痛苦了，分开说一下就好。Logistic Regression 有三个主要组成部分：回归、线性回归、Logsitic方程。

1）回归

Logistic regression是线性回归的一种，线性回归是一种回归。那么回归是虾米呢？

回归其实就是对已知公式的未知参数进行估计。比如已知公式是y = a*x + b，未知参数是a和b。我们现在有很多真实的(x,y)数据（训练样本），回归就是利用这些数据对a和b的取值去自动估计。估计的方法大家可以简单的理解为，在给定训练样本点和已知的公式后，对于一个或多个未知参数，机器会自动枚举参数的所有可能取值（对于多个参数要枚举它们的不同组合），直到找到那个最符合样本点分布的参数（或参数组合）。（当然，实际运算有一些优化算法，肯定不会去枚举的）

注意，回归的前提是公式已知，否则回归无法进行。而现实生活中哪里有已知的公式啊（G=m*g 也是牛顿被苹果砸了脑袋之后碰巧想出来的不是？哈哈），因此回归中的公式基本都是数据分析人员通过看大量数据后猜测的（其实大多数是拍脑袋想出来的，嗯...）。根据这些公式的不同，回归分为线性回归和非线性回归。线性回归中公式都是“一次”的（一元一次方程，二元一次方程...），而非线性则可以有各种形式（N元N次方程，log方程等等）。具体的例子在线性回归中介绍吧。