判别模型:logistic,GDA,QDA(一)

前言准备:
输入变量可称呼为预测变量、自变量、属性变量、解释变量,有时候就称为变量;
输出变量称为:响应变量或因变量。


本篇目的:预测定性响应变量的方法及分类,以及各个分类方法之间的比较。

预测一个定性响应变量也指对观测分类(classifying),因为它涉及到将观测分配到一个类别中。大部分的分类方法先从预测定性变量不同类别的概率开始,将分类问题作为概率估计的一个结果。

分类方法:
逻辑斯蒂回归(logistic regression)
线性判别分析(linear discriminant analysis)
K最近邻(K-nearest neighbor)

(一)逻辑斯蒂回归

适用于二元响应变量,对响应变量Y属于某一类的概率进行回归,而不直接对响应变量Y建模。

例如:Default(违约)数据集,只取两个值yes(违约)或no(不违约)。则逻辑斯蒂回归建立违约概率模型为: Pr(default=Yes|balance) ,值记为 p(balance) [balance为信用卡余额],取值范围在0到1之间。任意给一个balance值,就可以根据这个概率对default预测。

例如:如果某人的p(balance)>0.5,就可以预测这个人的default=Yes.阙值可以根据需要来取值,此处的阙值为0.5,若这家公司希望对预测一个人是否发生违约风险方面持谨慎态度,那么预测模型应选择一个较低的阙值,比如:p(balance)>0.1。

1.逻辑斯蒂模型:

若使用线性回归模型表示这些概率:p(X)=a+bX,用这条直线拟合一个编码为0,1的二元响应变量,总可以找到X使得预测的p(X)<0,而对X的另外一些值P(X)>1(除非X的范围是限定的)。因此找到逻辑斯蒂函数,使得对任意的X值该函数的输出结果都在0和1之间。

模型的建立:

采用对数变换: P(X)=e(a+bx)1+e(a+bx) ,该函数即为逻辑斯蒂函数,产生S形的曲线,取值在0—1之间。

P(x)/(1p(x)) 发生比,取值范围为0到inf。其值接近于0,表示违约概率非常低,其值接近于inf表示违约的概率非常高。

logP(x)/(1p(x)) 对数发生比log-odd或分对数logit,因此逻辑斯蒂回归模型可以视为分对数变换下关于X的一个线性模型

参数解释:b表示X每增加一个单位,对数发生比的变化为b或发生比的变化要乘以exp(b)。
在逻辑斯蒂函数中,p(X)与X的关系并不是线性的,P(X)随X增加一个单位的改变量取决于X的当前值,但是如果不考虑X的取值,若b值是正的,P(X)随X的增加而增加;若b值是负的,P(X)随X的增加而减小。

模型的回归系数估计:
估计回归系数:在线性回归模型中,用最小二乘法估计线性模型中的未知系数;虽然也可以用(非线性)最小二乘拟合模型,但由于极大似然有更好的统计性质,如一致最小无偏估计性质,所以此处采用极大似然方法估计系数。

极大似然法拟合逻辑斯蒂回归模型的基本思想:寻找a,b的一个估计,使得由逻辑斯蒂函数得到的每个人的违约预测概率P(xi)的估计值最大可能的与违约的观测情况接近。换句话说,求出的a,b的估计值,带入逻辑斯蒂函数中,使得所有违约人的概率值接近于1,而未违约人的概率值接近于0。

表达为数学方程的似然函数(likelihood function ),形式如下:
似然函数

估计的结果在下面的案例中展现,主要通过R软件中glm()函数(广义线性模型函数)

多元逻辑斯蒂回归
与一元情况类似,只是预测变量

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值