一、logistic回归的由来
logistic回归在百度百科是这样定义的:
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
由此可见 logistic回归是从线性回归模型推广而来的,线性回归模型如下:
-----------线性方程形式
----------------向量形式
h(x)输出为连续的值,但是实际中会有"输出为离散型变量"这样的需求,例如:给定特征预测一次金融交易是否是欺诈(1表示是, 0表示不是),显然不能直接使用线性回归模型(上面的线性回归方程自变量的取值范围是-∞到+∞,右侧表达式的的值的范围也是-∞到+∞),而这时逻辑回归就派上用场了。
二、Logistic回归模型建立
离散型变量涉及的问题通常称之为 分类问题,在分类问题中,尝试预测的是结果是否属于某一个类,下面我们从0-1二元分类问题开始理解。
现假设因变量y取值为0和1,在自变量x的条件下因变量y=1的概率为p,记作p=P(y=1|x),那么y=0的概率就为1-p(因变量取1和取0的概率比值p/(1-p) 称为优势比),由 P(y=1|x) 推导 Sigmoid函数,推导过程如下:
Sigmoid函数公式: ----------------------- (1)
Sigmoid函数图形:(上下阈值无限逼近 1 和 0)
Logistic回归可理解为是在线性回归的基础上加一个Sigmoid函数对线性回归的结果进行压缩,令其最终预测值y在一个范围内(0到1之间),或者说是在用线性回归模型的预测结果去逼近真实标记的对数几率。
上述由 P(y=1|x) 推导 Sigmoid函数的过程中,设置了:
这里,需要一个引经据典,才能进行下一步推导:
1730 年,法国数学家棣莫弗(1677年-1754年)出版的著作《分析杂论》中包含了著名的棣莫弗─拉普拉斯定理。他使用正态分布取估计n(很大)时抛掷硬币出现正面次数的分布,即二项分布B(n,0.5)。这就是概率论中第二个基本极限定理的雏形。将近80年后,拉普拉斯(1749年-1827年)在 1812 年出版的《概率的分析理论》中,首先明确地对概率作了古典的定义。他指出当n很大时,二项分布B(n,p)(0<p<1)都可以用正态分布逼近。所以后人称之为棣莫弗-拉普拉斯中心极限定理。
所以,我们假设 类条件概率密度 服从正态分布。
高中的时候我们便学过一维正态分布的公式为:
拓展到多维时,就变成:
-------------------------- (2)
其中, 表示维度为 D 的向量,
则是这些向量的平均值,Σ 表示所有向量
的协方差矩阵。
(2)式写成概率的形式:
下面开始下一步推导:
由此得到
那么 , 什么时候不需要考虑偏置项b?
当和
吸收入向量形式
,此时就不用单独考虑
了。
因此令 ,则
即: ----------------------- (3)
综合上述 (1)式 和 (3)式,得到Logistic回归模型:
完毕。