【清风数学建模笔记】 第九讲:分类模型

本讲将介绍分类模型。对于二分类模型,我们将介绍逻辑回归(logistic regression)和Fisher线性判别分析两种分类算法;对于多分类模型,我们将简单介绍Spss中的多分类线性判别分析多分类逻辑回归的操作步骤

水果分类的例子

mass: 水果重量
width: 水果的宽度
height: 水果的高度
color_score: 水果的颜色数值,范围0‐1
fruit_name:水果类别
前19个样本是苹果
后19个样本是橙子
用这38个样本预测后四个样本对应的水果种类

数据预处理:生成虚拟变量

工具:SPSS
在这里插入图片描述

逻辑回归logistic regression

在这里插入图片描述对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。把y看成事件发生的概率,y>0.5表示发生;y<0.5表示不发生

线性概率模型

在这里插入图片描述

两点分布(伯努利分布)

在这里插入图片描述

连接函数的取法

在这里插入图片描述

函数图像对比

在这里插入图片描述

怎么求解?

在这里插入图片描述

怎么用于分类?

在这里插入图片描述

Spss求解逻辑回归

在这里插入图片描述

预测成功率

在这里插入图片描述

逻辑回归系数表

在这里插入图片描述

表格中新添的两列解读

在这里插入图片描述

逐步回归的设置

在这里插入图片描述

假如自变量有分类变量怎么办?

在这里插入图片描述
两种方法
(1)先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
(2)直接点击分类,然后定义分类协变量,Spss会自动帮我们生成。
(如果没有生成虚拟变量这个选项,则说明SPSS没有安装到默认位置)

预测结果较差怎么办?

可在logistic回归模型中加入平方项、交互项等。
在这里插入图片描述

加入了平方项后的结果

在这里插入图片描述

过拟合现象

在这里插入图片描述

如何确定合适的模型

在这里插入图片描述

Fisher线性判别分析

LDA(Linear Discriminant Analysis)是一种经典的线性判别方法,又称Fisher判别分析。该方法思想比较简单:给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集异类投影点尽可能远离
在这里插入图片描述

核心问题:找到线性系数向量

在这里插入图片描述

Spss操作

在这里插入图片描述

结果分析

在这里插入图片描述

多分类问题

在这里插入图片描述

Fisher判别分析可用于多分类

在这里插入图片描述

在这里插入图片描述

Logistic回归也可用于多分类

在这里插入图片描述

Spss操作

在这里插入图片描述

注意,这里要将几个自变量放到协变量中,视频里面的操作放到了上面的因子中是不正确的,但后续的分析思路完全相同。
补充:Spss中因子和协变量的区别
因子指分类型变量,例如性别、学历等
协变量指连续型变量,例如面积、重量等。

在这里插入图片描述

结果说明

在这里插入图片描述
在这里插入图片描述

返回到我们的数据列表,可以看出Spss给我们输出了属于每一类的概率,并将概率最大的那个类别作为我们的预测结果。

课后作业

在这里插入图片描述
在这里插入图片描述

代码

%  匿名函数的讲解在拟合那一讲讲过

f1=@(x) normcdf(x);  % 标准正态分布的累积分布函数 
fplot(f1, [-4,4]);  %-44上画出函数f1的图形
hold on;  % 不关闭作图窗口
grid on;   % 显示网格线
f2=@(x) exp(x)/(1+exp(x));  % Sigmoid函数
fplot(f2, [-4,4]);  %-44上画出函数f2的图形
legend('标准正态分布的cdf','sigmoid函数','location','SouthEast')

% % 注意:代码文件仅供参考,一定不要直接用于自己的数模论文中
% % 国赛对于论文的查重要求非常严格,代码雷同也算作抄袭

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值