分类模型
适用于二分类问题的逻辑回归和fisher线性判别法
1.引入:水果分类
已知两种水果的属性和名称,如果已知水果的部分属性,通过这些数据建立模型来判断已知属性但未知种类水果。
要进行数据预处理成0和1的结果。可以利用spss进行操作。
那么我们就可以使用,逻辑回归,对于变量, 一个是0,一个是1,如果接近1看成是一种,0看成另一种,那么我们就可以得到分类结果。在这里y作为一个二值变量,被看成事件发生的概率,y>0.5表示发生,y<0.5表示事情没有发生。
2.二分类logistics模型
显然直接用回归模型有问题
1.内生性问题,y只可以取0或者1,回归系数估计起来不要再
且有偏差,协方差不为0,但我们现在要估计预测结果,不准确的
2.y取值问题,可能是0或者1以外的值,取到任意位置是不可以的
那我们再考虑采用泊松分布(一种两点分布的概率),在这里可以保证结果就是在0到1之间的概率
按照下面的方法建立一个连接函数,使得回归中也可进行分类
建立模型前,需要对变量先进行处理,把定性变量通过生成虚拟变量的方法变成定量变量;
其中结果分析主要看预测和原有的数据相比的预测正确率。最后得到的模型是逻辑回归函数表达式,计算最后的结果概率,看大于0.5和小于0.5分别得到的。
同时也可以利用逐步回归找到那些显著的自变量
对于分类变量需要生成虚拟变量后任意删除一列来消除多重共线性的影响。
对于比较差的预测效果可以加入平方项和交互项来进行处理。
但这个时候,虽然加入越来越多的变量可以最终完全表示已有数据的图形,却会出现过拟合的现象,即对已有数据拟合效果好,对要样本外的的数据效果差。
这个问题的解决方法就是把已有数据分为训练集和测试集。
3.二分类的fisher模型
给定训练集样例,设法把样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。
同时保证类间距离大,类内距离小。找到最优的直线,法向量,完全分隔开。
采用spss进行多分类线性判别分析和逻辑回归操作
1.引入:多种水果分类
2. 多分类fisher判别
fisher判别用于多分类问题,思想类似二分类时的特征,这里需要三个平面来进行投影。
这里SPSS不能自动帮我们生成虚拟变量,我们可以在EXCEL表中使用“替换”功能来快速生成虚拟变量。定性变量变为定量变量是从1开始编号。可以通过筛选来实现编号。
分析同样是看分类准确率和分类结果
logistic函数用于多分类问题,如果预测准确率太高了可能会出现过拟合问题,要解决可以采用交叉验证来看预测效果,把数据随机按4:1的比例分成训练集和测试集来验证模型的准确率。