一、实验目的及要求
1.掌握Logistic回归分析的基本步骤、原理、软件实现、结果分析;
2.理解多重共线性的概念、原理及岭轨迹的软件实现;
3.了解高维数据分析的应用领域及分析方法。
二、实验仪器设备
电脑、SPSS、Clementine
三、实验内容
(一).基本概念
线性回归模型的一个局限性是要求因变量和自变量都是连续型变量(定距变量、定比变量),而不是离散型变量(定序变量、定类变量)。但是在许多实际问题中,经常出现因变量或自变量是离散型变量(分类变量)的情况,当遇到此类问题的时候,线性回归方法就不再适用。这时可以采用Logistic回归分析方法。
Logistic回归分析根据因变量取值类别不同,又可以分为二项Logistic回归(二分类Logistic回归,Binary Logistic回归)分析和多项Logistic回归(多分类Logistic回归,Multinomial Logistic回归)分析。二项Logistic回归模型中因变量只能取两个值,分为用0和1来表示;而多项Logistic回归模型中可以取多个值。
本实验通过二项Logistic回归模型来预测电信客户流失。
(二)参数估计
由于Logistic回归模型的残差不再服从正态分布,而是二值离散型分布,所以采用极大似然估计法对模型的参数进行估计。
(三)二项Logistic回归分析中的虚拟变量
在二项Logistic回归分析中,如果有些自变量为定类或者定序的离散型变量,则必须将其转化成虚拟变量。当某一自变量有m种分类(m个取值)时,需要设立m-1个虚拟变量。