本文借鉴了数学建模清风老师的课件与思路,可以点击查看链接查看清风老师视频讲解:清风数学建模:https://www.bilibili.com/video/BV1DW411s7wi
一、二分类问题
1.0案例
1.0.1案例背景
1.0.2案例数据
1.1逻辑回归
借助SPPSS实现逻辑回归步骤如下:
先将数据导入进SPSS,如下图:
然后给因变量种类创建虚拟变量(01变量),如下图:
创建之后会出现新的3列,框起来的为他们的不同,如下图:
现在删除不要的两列。因为我们要将苹果和橘子分为0和1,而这三列里,第二列所有的苹果为1,所有的橘子和待预测样本为0,所以这里删除第一列和第三列,并将待预测样本的0删除。删除后的效果如下:
接着执行下图操作:
当指标里有分类指标(如性别)时,将该变量放入分类协变量里面:
现在可得到结果:
根据逻辑回归系数表可以写出模型的计算公式:
当模型结果较差时:
加入了平方项之后的结果如下:
可以看到,此时的预测正确率为100%,可能产生了过拟合(训练集上预测的效果好,预测集效果差)如下图:
解决过拟合的方法:
1.2Fisher线性判别
前面操作和逻辑回归一致,首先为分类指标创建虚拟变量(01)。
接着借助SPSS实现Fisher线性判别分类,其中,定义范围为分类指标的种类,本案例中,有两个种类,故为0-1,如下图:
分类结果如下,可将典则判别函数系数放入论文,如下图:
二、多分类问题
2.0 案例数据
2.1逻辑回归
在Excel里为分类指标创建虚拟变量1-4,创建之后如下图:
然后进行下列操作:
可得以下结果:
2.2Fisher线性判别
在Excel里为分类指标创建虚拟变量1-4,创建之后如下图:
Fisher线性判别实现多分类问题和二分类差不多,只是定义的范围修改下(这里分类的种类有4类,故范围为1-4),如下两个图:
分类的结果,分类结果表里,上面的为分类的数量,下面的为分类的概率,如下图:
下图为得到的结果, 框的第一个为得到的分类结果,框的第二个为4个种类的概率,如预测的第一个样本中,预测为第3类的概率为0.87121,故将该样本预测为第三类。