前言准备:
输入变量可称呼为预测变量、自变量、属性变量、解释变量,有时候就称为变量;
输出变量称为:响应变量或因变量。
本篇目的:预测定性响应变量的方法及分类,以及各个分类方法之间的比较。
预测一个定性响应变量也指对观测分类(classifying),因为它涉及到将观测分配到一个类别中。大部分的分类方法先从预测定性变量不同类别的概率开始,将分类问题作为概率估计的一个结果。
分类方法:
逻辑斯蒂回归(logistic regression)
线性判别分析(linear discriminant analysis)
K最近邻(K-nearest neighbor)
(一)逻辑斯蒂回归
适用于二元响应变量,对响应变量Y属于某一类的概率进行回归,而不直接对响应变量Y建模。
例如:Default(违约)数据集,只取两个值yes(违约)或no(不违约)。则逻辑斯蒂回归建立违约概率模型为: Pr(default=Yes|balance) ,值记为 p(balance) [balance为信用卡余额],取值范围在0到1之间。任意给一个balance值,就可以根据这个概率对default预测。
例如:如果某人的p(balance)>0.5,就可以预测这个人的default=Yes.阙值可以根据需要来取值,此处的阙值为0.5,若这家公司希望对预测一个人是否发生违约风险方面持谨慎态度,那么预测模型应选择一个较低的阙值,比如:p(balance)>0.1。
1.逻辑斯蒂模型:
若使用线性回归模型表示这些概率:p(X)=a+bX,用这条直线拟合一个编码为0,1的二元响应变量,总可以找到X使得预测的p(X)<0,而对X的另外一些值P(X)>1(除非X的范围是限定的)。因此找到逻辑斯蒂函数,使得对任意的X值该函数的输出结果都在0和1之间。
模型的建立:
采用对数变换: P(X)=e(a+bx)1+e(a+bx) ,该函数即为逻辑斯蒂函数,产生S形的曲线,取值在0—1之间。
称 P(x)/(1−p(x)) 为发生比,取值范围为0到inf。其值接近于0,表示违约概率非常低,其值接近于inf表示违约的概率非常高。
log(P(x)/(1−p(x))) 为对数发生比log-odd或分对数logit,因此逻辑斯蒂回归模型可以视为分对数变换下关于X的一个线性模型。
参数解释:b表示X每增加一个单位,对数发生比的变化为b或发生比的变化要乘以exp(b)。
在逻辑斯蒂函数中,p(X)与X的关系并不是线性的,P(X)随X增加一个单位的改变量取决于X的当前值,但是如果不考虑X的取值,若b值是正的,P(X)随X的增加而增加;若b值是负的,P(X)随X的增加而减小。
模型的回归系数估计:
估计回归系数:在线性回归模型中,用最小二乘法估计线性模型中的未知系数;虽然也可以用(非线性)最小二乘拟合模型,但由于极大似然有更好的统计性质,如一致最小无偏估计性质,所以此处采用极大似然方法估计系数。
极大似然法拟合逻辑斯蒂回归模型的基本思想:寻找a,b的一个估计,使得由逻辑斯蒂函数得到的每个人的违约预测概率P(xi)的估计值最大可能的与违约的观测情况接近。换句话说,求出的a,b的估计值,带入逻辑斯蒂函数中,使得所有违约人的概率值接近于1,而未违约人的概率值接近于0。
表达为数学方程的似然函数(likelihood function ),形式如下:
估计的结果在下面的案例中展现,主要通过R软件中glm()函数(广义线性模型函数)
多元逻辑斯蒂回归
与一元情况类似,只是预测变量