9.逻辑回归和fisher线性判别解决二分类和多分类问题

适用于二分类问题的逻辑回归和fisher线性判别法

1.引入:水果分类

已知两种水果的属性和名称,如果已知水果的部分属性,通过这些数据建立模型来判断已知属性但未知种类水果。
要进行数据预处理成0和1的结果。可以利用spss进行操作。
那么我们就可以使用,逻辑回归,对于变量, 一个是0,一个是1,如果接近1看成是一种,0看成另一种,那么我们就可以得到分类结果。在这里y作为一个二值变量,被看成事件发生的概率,y>0.5表示发生,y<0.5表示事情没有发生。

2.二分类logistics模型

在这里插入图片描述
显然直接用回归模型有问题

1.内生性问题,y只可以取0或者1,回归系数估计起来不要再

且有偏差,协方差不为0,但我们现在要估计预测结果,不准确的

2.y取值问题,可能是0或者1以外的值,取到任意位置是不可以的

那我们再考虑采用泊松分布(一种两点分布的概率),在这里可以保证结果就是在0到1之间的概率

按照下面的方法建立一个连接函数,使得回归中也可进行分类


在这里插入图片描述

建立模型前,需要对变量先进行处理,把定性变量通过生成虚拟变量的方法变成定量变量;
在这里插入图片描述

在这里插入图片描述
其中结果分析主要看预测和原有的数据相比的预测正确率。最后得到的模型是逻辑回归函数表达式,计算最后的结果概率,看大于0.5和小于0.5分别得到的。

同时也可以利用逐步回归找到那些显著的自变量
在这里插入图片描述
对于分类变量需要生成虚拟变量后任意删除一列来消除多重共线性的影响。
对于比较差的预测效果可以加入平方项和交互项来进行处理。
在这里插入图片描述
但这个时候,虽然加入越来越多的变量可以最终完全表示已有数据的图形,却会出现过拟合的现象,即对已有数据拟合效果好,对要样本外的的数据效果差。
这个问题的解决方法就是把已有数据分为训练集和测试集。
在这里插入图片描述

3.二分类的fisher模型

给定训练集样例,设法把样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。
同时保证类间距离大,类内距离小。找到最优的直线,法向量,完全分隔开。
在这里插入图片描述
在这里插入图片描述

采用spss进行多分类线性判别分析和逻辑回归操作

1.引入:多种水果分类

在这里插入图片描述

2. 多分类fisher判别

fisher判别用于多分类问题,思想类似二分类时的特征,这里需要三个平面来进行投影。
在这里插入图片描述
在这里插入图片描述
这里SPSS不能自动帮我们生成虚拟变量,我们可以在EXCEL表中使用“替换”功能来快速生成虚拟变量。定性变量变为定量变量是从1开始编号。可以通过筛选来实现编号。
分析同样是看分类准确率和分类结果
logistic函数用于多分类问题,如果预测准确率太高了可能会出现过拟合问题,要解决可以采用交叉验证来看预测效果,把数据随机按4:1的比例分成训练集和测试集来验证模型的准确率。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值