1.Logistic Regression
1.1什么是回归?
英文单词Regression翻译成中文“回归”,那什么是回归呢?事实上,在Logistic回归出现以前,人们最先引入的是线性回归。了解二者之间的来龙去脉将帮助你更深刻地认识Logistic回归。
回归一词最早由英国科学家弗朗西斯·高尔顿(Francis Galton)提出,他还是著名的生物学家、进化论奠基人查尔斯·达尔文(Charles Darwin)的表弟。高尔顿深受进化论思想的影响,并把该思想引入到人类研究,从遗传的角度解释个体差异形成的原因。
高尔顿发现,虽然有一个趋势——父母高,儿女也高;父母矮,儿女也矮,但给定父母的身高,儿女辈的平均身高却趋向于或者“回归”到全体人口的平均身高。换句话说,即使父母双方都异常高或者异常矮,儿女的身高还是会趋向于人口总体的平均身高。这也就是所谓的普遍回归规律。
高尔顿的这一结论被他的朋友,英国数学家、数理统计学的创立者卡尔·皮尔逊(Karl Pearson)所证实。皮尔逊收集了一些家庭的1000多名成员的身高记录,发现对于一个父亲高的群体,儿辈的平均身高低于他们父辈的身高;而对于一个父亲矮的群体,儿辈的平均身高则高于其父辈的身高。这样就把高的和矮的儿辈一同“回归”到所有男子的平均身高,用高尔顿的话说,这是“回归到中等”。
回归分析是被用来研究一个被解释变量(Explained Variable)与一个或多个解释变量(Explanatory Variable)之间关系的统计技术。被解释变量有时也被称为因变量(Dependent Variable),与之相对应地,解释变量也被称为自变量(Independent Variable)。回归分析的意义在于通过重复抽样获得的解释变量的已知或设定值来估计或者预测被解释变量的总体均值。
如果你对上面这段话感到困惑,不妨来看看下面这张图。图上有一些观测到的样本点,线性回归的任务就在于通过一条线来最大程度地拟合这些点。例如,我们已经得到了一些父辈与儿辈身高的数据,而且我们认为儿辈的身高在很大程度上依赖于父辈的身高。那么,我们就可以把儿辈身高看成是被解释变量(即图中的纵轴),把父辈身高看成是解释变量(即图中的衡轴)。然后通过一条回归线来拟合这些数据,如此一来,当我们已知一个父亲的身高时,就可以通过回归线所表现出来的线性关系推测出儿子身高的大概水平。
在线性回归中,我们假设被解释变量 与解释变量 之间具有线性相关的关系,那么用公式就可以将线性回归模型表示为
其中 表示常数项,上图中因为自变量只有一个,所以一元线性回归的公式表示应该是 ,显然它是多元线性回归模型中最简