分类模型——逻辑回归和Fisher线性判别分析

个人学习笔记,课程为数学建模清风付费课程

目录

一、引例

二、逻辑回归

2.1线性概率模型

2.2Fisher线性判别分析 

2.3两点分布(伯努利分布)

2.4连接函数的取法 

2.5如何求解 

2.6如何用于分类 

三、SPSS 

3.1二元分类

3.1.1逻辑回归

3.1.1.1预测成功率

3.1.1.2逻辑回归系数表

3.1.1.3表格中新添的两列解读

3.1.1.4逐步回归的设置 

3.1.1.5假如自变量有分类变量怎么办? 

3.1.1.6预测结果较差怎么办?

3.1.1.7加入了平方项后的结果

3.1.1.8过拟合现象 

3.1.2如何确定合适的模型 

3.1.3Fisher线性判别分析 

3.2多元分类

3.2.1逻辑回归

3.2.2Fisher线性判别分析 

四、课后作业

4.1题目

4.2参考答案

4.2.1第一步

​4.2.2第二步

4.2.3第三步

4.2.4结果分析

五、课后思考


一、引例

 二、逻辑回归

2.1线性概率模型

线性概率模型( Linear Probability Model ,简记 LPM
直接用原来的回归模型进行回归。

2.2Fisher线性判别分析 

LDA(Linear Discriminant Analysis) 是一种经典的线性判别方法,又称 Fisher 判别分析。该方法思想比较简单: 给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。

 详细证明和求解步骤:https://www.bilibili.com/video/av33101528/?p=3

 

2.3两点分布(伯努利分布)

 

2.4连接函数的取法 

f1=@(x) normcdf(x);  % 标准正态分布的累积分布函数 
fplot(f1, [-4,4]);  % 在-4到4上画出函数f1的图形
hold on;  % 不关闭作图窗口
grid on;   % 显示网格线
f2=@(x) exp(x)./(1+exp(x));  % Sigmoid函数
fplot(f2, [-4,4]);  % 在-4到4上画出函数f2的图形
legend('标准正态分布的cdf','sigmoid函数','location','SouthEast')

2.5如何求解 

逻辑回归的推导: https://www.bilibili.com/video/BV1aE411o7qd?p=17
极大似然估计:大家可参考概率论与数理统计的教材,或搜索相应视频学习

2.6如何用于分类 

三、SPSS 

3.1二元分类

3.1.1逻辑回归

3.1.1.1预测成功率

 

3.1.1.2逻辑回归系数表

 

3.1.1.3表格中新添的两列解读

 

3.1.1.4逐步回归的设置 

3.1.1.5假如自变量有分类变量怎么办? 

两种方法
1 )先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;
2 )直接点击分类,然后定义分类协变量, Spss 会自动帮我们生成。
(如果没有生成虚拟变量这个选项,则说明 SPSS 没有安装到默认位置)
3.1.1.6预测结果较差怎么办?

可在logistic回归模型中加入平方项、交互项等。

 3.1.1.7加入了平方项后的结果

3.1.1.8过拟合现象 

3.1.2如何确定合适的模型 

把数据分为 训练组 测试组 ,用训练组的数据来估计出模型,再用测试组的数据来进行测试。(训练组和测试组的比例一般设置为80% 20%)


3.1.3Fisher线性判别分析 

结果分析 

3.2多元分类

3.2.1逻辑回归

将连接函数: Sigmoid 函数 推广为 Softmax 函数
https://www.cnblogs.com/bonelee/p/8127411.html
https://blog.csdn.net/Gamer_gyt/article/details/85209496

 

注意,这里要将几个自变量放到协变量中,视频里面的操作放到了上面的 因子中是不正确的,但后续的分析思路完全相同。
补充: Spss 中因子和协变量的区别
因子指分类型变量,例如性别、学历等
协变量指连续型变量,例如面积、重量等。

 

结果说明

 

3.2.2Fisher线性判别分析 

https://blog.csdn.net/z962013489/article/details/79918758

注意:这里SPSS不能自动帮我们生成虚拟变量,我们可以在EXCEL表中使用“替换”功能来快速生成虚拟变量。 

结果

 

四、课后作业

4.1题目

4.2参考答案

4.2.1第一步

使用替换功能将三种鸢尾花种类名称替换为123的数字

4.2.2第二步

将替换后的数据保存,导入到spss中

另外,如果导入 excel 数据文件比较卡的话,可以先将数据另存为 csv 件,然后再使用 SPSS 的导入 csv 数据的功能。

4.2.3第三步

以多元逻辑回归为例

4.2.4结果分析



 五、课后思考

清风老师的机器学习课程中有更厉害的分类模型,比如决策树、随机森林、SVM ,欢迎大家去观看!
https://www.bilibili.com/video/BV1v64y1B7vJ

 

  • 21
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
fisher线性判别分析Fisher's Linear Discriminant Analysis,简称FLDA)和逻辑回归(Logistic Regression)都是常见的分类算法,它们有一些区别和联系。 首先,FLDA是一种有监督的线性降维方法,其目的是将高维特征空间中的数据映射到低维空间,以实现分类的目的。它假设不同类别的数据具有相同的协方差矩阵,并试图找到一个投影向量,使得同一类别的样本尽可能接近,不同类别的样本尽可能分开。 相比之下,逻辑回归是一种分类算法,其基本思想是通过一个线性回归模型来估计不同类别的条件概率,并利用逻辑函数(如sigmoid函数)将概率映射到0-1之间,从而实现分类。 FLDA和逻辑回归在应用上的区别主要体现在以下几方面: 1. 假设条件不同:FLDA假设不同类别的数据具有相同的协方差矩阵,而逻辑回归没有这个假设。 2. 类别数目不同:FLDA适用于多分类问题,可以将数据映射到维度为类别数目-1的空间中,而逻辑回归一般适用于二分类问题。 3. 输出形式不同:FLDA输出的是一个线性判别函数的值,用于判断样本的类别,而逻辑回归输出的是样本属于某一类别的概率。 此外,FLDA和逻辑回归也存在一些联系: 1. FLDA可以被看作是逻辑回归的特例之一,当输入样本是高斯分布时,FLDA与逻辑回归具有相同的分类结果。 2. 逻辑回归可以使用FLDA降维的结果作为输入特征,从而进一步提高分类性能。 综上所述,FLDA和逻辑回归虽然有一些区别和联系,但都是常见的分类算法,具有各自的优势和适用场景。在实际应用中,选取合适的算法需要根据具体的问题和数据特征来进行权衡和选择。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值