Logistic回归
逻辑斯蒂回归是统计学习中的经典分类方法。假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立公式,依此进行分类。
训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。
首先介绍Logistic分布
定义:设 X 是连续随机变量,X 服从Logistic分布是指 X 具有下列分布函数和密度函数:
F(x)=P(X<=x)=11+e−(x−μ)/r
f(x)=F′(x)=e−(x−μ)/rγ(1+e−(x−μ)/r)2
式中,μ为位置参数,γ为形状参数。逻辑斯蒂分布的密度函数f(x) 和分布函数F(x)的图形如下图,分布函数属于逻辑斯蒂函数,其图形是一条S形曲线,该曲线以点(μ,1/2)为中心对称,即满足:
F(−x+μ)−12=−F(x+μ)+12
曲线在中心附近增长速度很快,在两端增长速度很慢。形状参数γ的值越小,曲线在中心附近增长得越快。
F(x) f(x)
逻辑回归与线性回归的关系:
这两者都是一种广义线性回归模型。逻辑回归假设因变量y服从伯努利分布,而线性回归假设因变量y服从高斯分布。因此与线性回归有许多相同之处,去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。