logistic regression属于概率型非线性回归,它是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。例如,在流行病学研究中,经常需要分析疾病与各危险因素之间的定量关系,为了正确说明这种关系,需要排除一些混杂因素的影响。对于线性回归分析,由于应变量Y是一个二值变量(通常取值1或0),不满足应用条件,尤其当各因素都处于低水平或高水平时,预测值Y值可能超出0~1范围,出现不合理都现象。用logistic回归分析则可以较好的解决上述问题。Logistic回归模型的基本形式如下:
![705e0091b68ad2dc995a7245a3d4dbba.png](https://img-blog.csdnimg.cn/img_convert/705e0091b68ad2dc995a7245a3d4dbba.png)
因此,对因变量P按照ln(P/(1-P))的形式进行对数变换,可以将Logistic回归问题转化为线性回归问题,在按照多元线性回归的方法求解回归参数。对于P取值只有0和1的情况,在实际中不是直接对P进行回归,而是先定义一个单调连续的概率函数π:
![fa92b799527ed7f25e8ef37a6eed7850.png](https://img-blog.csdnimg.cn/img_convert/fa92b799527ed7f25e8ef37a6eed7850.png)
此时Logistic模型为:
![22078d7b3a9d1a226cd48e7ab11dc3fa.png](https://img-blog.csdnimg.cn/img_convert/22078d7b3a9d1a226cd48e7ab11dc3fa.png)
然后只需要对原始数据进行合理的映射处理,就可以用线性回归方法得到回归系数,最后再根据π和P的映射关系进行反映射得到P的值。
下面是书中的一个例子,评估企业的还款能力,已知前20家企业的评价指标和评价结果,要求对剩余5家企业进行评估。数据如下:
![e267466fe3d4b77c01cc39b9be760656.png](https://img-blog.csdnimg.cn/img_convert/e267466fe3d4b77c01cc39b9be760656.png)
Π到P的映射关系:
![62eaf5ecbbf8c95d69c6d1165000f5ae.png](https://img-blog.csdnimg.cn/img_convert/62eaf5ecbbf8c95d69c6d1165000f5ae.png)
Π值的确定:
![dd8d78685b943be060900b178d2a5532.png](https://img-blog.csdnimg.cn/img_convert/dd8d78685b943be060900b178d2a5532.png)
Matlab代码如下:
- clear all
- clc
- %数据格式
- format long
- %前20组数据
- X0=xlsread('D:资料库区大三上HUAWEIMATLAB11Logistic.xls','E4:G23');
- %全部25组数据:验证和回归
- XE=xlsread('D:资料库区大三上HUAWEIMATLAB11Logistic.xls','E4:G28');
- %前20组评估的数据值:P
- Y0=xlsread('D:资料库区大三上HUAWEIMATLAB11Logistic.xls','H4:H23');
- n=size(Y0,1);
- %π和P的映射关系
- for i=1:n
- if Y0(i)==0
- Y1(i,1)=0.25;
- else
- Y1(i,1)=0.75;
- end
- end
- %构建常系数
- X1=ones(size(X0,1),1);
- X=[X1,X0];
- Y=log(Y1./(1-Y1));
- b=regress(Y,X);
- %模型验证的应用
- for i=1:size(XE,1)
- pai0=exp(b(1)+b(2)*XE(i,1)+b(3)*XE(i,2)+b(4)*XE(i,3))/(1+exp(b(1)+b(2)*XE(i,1)+b(3)*XE(i,2)+b(4)*XE(i,3)));
- if(pai0<=0.5)
- P(i)=0;
- else
- P(i)=1;
- end
- end
- %回归结果
- disp(['回归系数:' num2str(b') ' ']);
- disp(['评估结果:' num2str(P) ' ']);
Matlab运行结果如下:
![c51612ffe469743774e32a12121cb695.png](https://img-blog.csdnimg.cn/img_convert/c51612ffe469743774e32a12121cb695.png)
第一行即为该问题中回归模型的系数,带入即可得到回归模型,第二行为该模型的评估结果。