个人学习笔记,课程为数学建模清风付费课程
目录
一、引例
二、逻辑回归
2.1线性概率模型
线性概率模型( Linear Probability Model ,简记 LPM )直接用原来的回归模型进行回归。
2.2Fisher线性判别分析
LDA(Linear Discriminant Analysis) 是一种经典的线性判别方法,又称 Fisher 判别分析。该方法思想比较简单: 给定训练集样例,设法将样例投影到一维的直线上,使得同类样例的投影点尽可能接近和密集,异类投影点尽可能远离。
详细证明和求解步骤:https://www.bilibili.com/video/av33101528/?p=3
2.3两点分布(伯努利分布)
2.4连接函数的取法
f1=@(x) normcdf(x); % 标准正态分布的累积分布函数
fplot(f1, [-4,4]); % 在-4到4上画出函数f1的图形
hold on; % 不关闭作图窗口
grid on; % 显示网格线
f2=@(x) exp(x)./(1+exp(x)); % Sigmoid函数
fplot(f2, [-4,4]); % 在-4到4上画出函数f2的图形
legend('标准正态分布的cdf','sigmoid函数','location','SouthEast')
2.5如何求解
逻辑回归的推导: https://www.bilibili.com/video/BV1aE411o7qd?p=17极大似然估计:大家可参考概率论与数理统计的教材,或搜索相应视频学习
2.6如何用于分类
三、SPSS
3.1二元分类
3.1.1逻辑回归
3.1.1.1预测成功率
3.1.1.2逻辑回归系数表
3.1.1.3表格中新添的两列解读
3.1.1.4逐步回归的设置
3.1.1.5假如自变量有分类变量怎么办?
两种方法( 1 )先创建虚拟变量,然后删除任意一列以排除完全多重共线性的影响;( 2 )直接点击分类,然后定义分类协变量, Spss 会自动帮我们生成。(如果没有生成虚拟变量这个选项,则说明 SPSS 没有安装到默认位置)
3.1.1.6预测结果较差怎么办?
可在logistic回归模型中加入平方项、交互项等。
3.1.1.7加入了平方项后的结果
3.1.1.8过拟合现象
3.1.2如何确定合适的模型
把数据分为 训练组 和 测试组 ,用训练组的数据来估计出模型,再用测试组的数据来进行测试。(训练组和测试组的比例一般设置为80% 和 20%)
3.1.3Fisher线性判别分析
结果分析
3.2多元分类
3.2.1逻辑回归
将连接函数: Sigmoid 函数 推广为 Softmax 函数https://www.cnblogs.com/bonelee/p/8127411.htmlhttps://blog.csdn.net/Gamer_gyt/article/details/85209496
注意,这里要将几个自变量放到协变量中,视频里面的操作放到了上面的 因子中是不正确的,但后续的分析思路完全相同。
补充: Spss 中因子和协变量的区别因子指分类型变量,例如性别、学历等协变量指连续型变量,例如面积、重量等。
结果说明
3.2.2Fisher线性判别分析
https://blog.csdn.net/z962013489/article/details/79918758
注意:这里SPSS不能自动帮我们生成虚拟变量,我们可以在EXCEL表中使用“替换”功能来快速生成虚拟变量。
结果
四、课后作业
4.1题目
4.2参考答案
4.2.1第一步
使用替换功能将三种鸢尾花种类名称替换为123的数字
4.2.2第二步
将替换后的数据保存,导入到spss中
另外,如果导入 excel 数据文件比较卡的话,可以先将数据另存为 csv 文 件,然后再使用 SPSS 的导入 csv 数据的功能。
4.2.3第三步
以多元逻辑回归为例
4.2.4结果分析
五、课后思考
清风老师的机器学习课程中有更厉害的分类模型,比如决策树、随机森林、SVM
,欢迎大家去观看!
https://www.bilibili.com/video/BV1v64y1B7vJ