数学建模—多元分析

EverydayOneCat

ʚฅ•ﻌ•ฅɞ 🪐 🌈 img

知识点

1.笔记

image-20200710165823846

2.正态性检验

Pearson相关系数的适用条件:
(1)两变量的总体服从正态分布
(2)样本容量较大,都是连续型变量
(3)变量必须是成对数据

SAS代码:

data ex;input x@@;
cards;
 97 130 156.5 135.2 137.7 180.5 205.2 190 188.6 196.7 180.3
 210.8 196 223 238.2 263.5 292.6 317 335.4 327 321.9 353.5
 397.8 436.8 465.7 476.7 462.6 460.8 501.8 501.5 489.5
 541 519 559.8 542 567
;
proc univariate data=ex normal;/*表明做正态检验*/
var x;
histogram x;/*画直方图*/
probplot x;/*画分布函数*/
run;
image-20200709105756361 image-20200709105525609

image-20200709105326478

3.偏相关系数

SAS代码:

data ex;input y k s l t@@;
x1=log(k);x2=log(s);x3=log(l);y1=log(y);
cards;
70.8972 40076.5884 825.1305 15347.4273 1
83.7506 48008.7690 915.1500 15832.0950 2
70.8627 44593.8425 804.150 13306.8090 3
78.3451 43460.3229 783.2100 13314.5700 4
98.0749 72657.2633 923.8050 14596.1190 5
134.8767 146108.3421 1282.8900 20911.1070 6
147.5315 162433.3500 1244.7000 18670.5000 7
154.7607 166979.6325 1330.5150 18627.2100 8
159.9743 190395.5262 1505.4600 20775.3480 9
198.4942 205914.6645 1738.4100 22599.3300 10
194.7943 189762.7335 1677.0900 20963.6250 11
187.1013 193463.610 1761.9450 21936.2153 12
235.1184 183768.4035 1779.1500 19606.2330 13
;
proc corr; var y1 x1; run;
proc corr;var y1 x1;partial x2 x3 t;run;/*求y1和x1去除x2和x3的影响的偏相关系数*/

image-20200709110446544

image-20200709110453778

4.典型相关系数

例蔬菜产出水平主要体现在蔬菜总产量(Y1)、人均蔬菜占有量(Y2)、蔬菜总产增长速度(Y3)三个方面,并称作因变量组(简称“产出组”)。问题:因变量组与自变量X1(市场经济综合因素)、X2(劳动力动力因素) 、X3(气候因素)(简称“影响组”)的关系如何?

SAS代码:

data ex;input y1-y3 x1-x3 @@;
cards;
19519 170.72 9.8 -4.62 -0.54 -1.4
19578 176.22 0.3 -4.13 -0.2 0.97
19637 170.69 0.3 -3.5 -1.93 0.36
19695 166.18 0.3 -2.98 0.29 -0.18
16602 138.52 -16 -1.72 1.37 1.59
257232 110.7 54.9 -0.94 2.73 -0.42
30379 248.22 18.1 0.79 0.13 -1.34
34473 278.85 13.5 1.42 -0.2 0.59
38485 308.47 11.6 1.61 -0.7 -0.8
40514 322.09 5.27 2.07 -0.09 -0.45
42400 334.54 4.66 3.37 -0.97 1.1
48337 378.74 14 3.92 -0.1 0.53
52909 411.89 9.46 4.72 0.1 -0.59
;
proc cancorr data=ex all;var y1-y3; with x1-x3;/*固定写法,记住即可*/
run;

image-20200709133426014

整理得到蔬菜产出水平与影响因素的三个自变量的典型相关系数及特征值

序号 典型相关系数 标准误差 特征值 特征值方差比率 累计方差比率
1 0.969221 0.017497 15.4987 0.8699 0.8699
2 0.769604 0.117696 1.4527 0.0815 0.9514
3 0.681054 0.154778 0.8651 0.0486 1.0000

结果表明:前两个典型相关系数较高,表明相应典型变量之间密切相关。

序号 F计算值 自由度 F检验的显著性概率
1 9.38 9 <.0001
2 4.56 4 0.0120
3 7.79 1 0.1765

结果表明:只有前两对典型变量通过了统计量检验,表明相应典型变量之间相关关系显著,能够用三个自变量影响变量来解释产出变量。

典型相关模型结果如下:

image-20200709135040684

序号 典型相关模型
1 v1=6.1649 Y1-5.2034 Y2+0.0696 Y3
w1=0.9953X1-0.0054 X2-0.0948X3
2 v2=14.7443Y1-15.0750Y2+0.9105Y3
w2= - 0.0132 X1+0.9591 X2-0.2804 X3

结果分析:自变量X1即市场经济综合因素对中国蔬菜产出水平起根本性作用。市场经济综合因素与蔬菜总产出的关系体现在第一对典型变量v1和w1中,v1是中国蔬菜产出水平各指标的线性组合,其中,蔬菜总产出(Y1)的载荷为6.164,是各产出水平指标中最大的。w1是影响因素指标的线性组合,其中市场经济综合因素(X1)的载荷为0.9953,远远超过w1内其它指标的数值。考虑到第一对典型相关变量的相关系数几乎接近于1,可以认为,市场经济综合因素对蔬菜总产出水平起根本性作用。自变量X2即劳动力动力因素是决定人均蔬菜占有量的关键因素。

第二对典型变量中.人均蔬菜占有量(Y2)在典型变量v2中的载荷为-15.075,是各产出水平指标中最大的,而自变量X2则在典型变量w2中载荷最大,为0.9591。这一对典型相关变量的相关系数非常之高,表明自变量X2对劳动力动力因素起关键作用。

在第二对典型变量中,Y1与劳动力动力因素关系也非常密切。因为在第二对典型变量中,Y1在v2中的载荷14.7443,与Y2差距并不明显。由此可以分析的处,用Y1作为产出水平的代表,X1、X2、X3作为影响变量建立因果拟合模型效果是最好的。

5.主成分分析

起源一:寻找重要因素
在若干个相互关联、关系复杂的一组变量中,想找到最为关键的因素,是一个重要的科学问题。在寻找关键因素过程中,还需要找到能够反映该组变量这个群体的主要特征。

起源二:综合评价要求评价指标线性无关
在做综合评价的时候,往往需要将多个评价指标综合成一个指标。综合时除了需要将指标同向,还需要评价指标间线性无关或者不相关。
但是很多实际问题中,指标之间是高度关联的,在这种情况下如何进行综合评价?

起源三:建立回归模型的需要
在做多元线性回归模型时,理想状态下是需要自变量线性无关的。
而且,模型拟合时,还需要样本点的个数n与自变量的个数p满足一个不等式:n>3(k+1)
一旦两个条件有一个满足,回归模型的效果将受影响

例:以下是收集整理了的1990-2002年13年间影响中国蔬菜产量的若干因素数据,请你对这些影响因素作主成分分析,并分析结果。

SAS主成分软件包:princomp

编写SAS代码:

data ex;
input x1-x13;
cards;
/*数据省略*/
;
proc princomp out=prin;
var x1-x13;/*确定分析哪些元素*/
run;
proc print data=prin;
var prin1-prin13;/*需要打印出来的值*/
run;

image-20200709223431886

从程序结果可以看出,第一、第二、第三主成分累计解释方差的比率已经超过了94%,所以只需要求λ1、λ2、λ3所对应的正交化特征向量αi(i=1,2,3)

image-20200709223520808

根据这个就可以写出Z的表达式:

Z1=a1*X,Z2=a2 *X……其中X=(x1,x2,……,x13)

α1=(0.31,0.29,-0.22,0.30,-0.09,0.31,0.30,0.30,0.30,0.31,0.31,0.31,0.13),
α2=(-0.03,0.23,0.51,0.11,0.77,0.01,-0.09,0.13,0.19,0.07,0.04,-0.03,-0.09),
α3=(0.03,-0.03,0.24,-0.08,0.01,-0.03,0.02,-0.06,-0.04,-0.03,-0.08,0.05,0.96)

结果分析:

α1第一主成分在整体最为重要,接着我们看这些因素在第一主成分中的绝对值哪个最大,哪个就相当于对总体为重要。

第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民纯收入、农民文化素质等密切相关,表示的是市场经济综合因素,着重反映的是市场经济的成熟程度与国家现代化水平;

第二主成分与每公顷劳动投入、成本纯收益率等密切相关,表示的是劳动者动力因素;

第三主成分与气候条件密切相关,显然表示的是气候因素。

主成分得分:相当于把Z1,Z2……算出来

image-20200709224117586

6.因子分析

因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。

因子分析一般步骤:
1)类似主成分分析,计算 及s , k, j =1,2,…m,建立基本方程组;
2)用主成分分析法确定因子载荷阵A;
3)方差极大正交旋转,对变量系数极值化(尽量趋于0或1);
4)得到因子得分函数,计算样本因子得分。

例:已知12个地区的5个经济指标:人口总数、学校总数、就业人口、服务业总数、房子个数。依据已知的5个经济指标,对12个地区的综合经济实力进行分析。

分析:由于指标个数较多,不便于分析排序。因此,考虑先做因子分析找出指标的共同因子,再计算因子得分,通过分析因子得分来评价该地区的经济指标。

data ex;
input objects$ pop school employ services house@@;
cards;
/*数据省略*/
;
proc factor data=ex /*factor表示调用因子分析模块*/
method=principal rotate=varimax /*rotate表示因子旋
转*/
percent=0.8 /*要求累计贡献率大于0.8*/
score outstat=ex1; /*计算因子得分*/
var pop school employ services house; run;
proc score data=ex score=ex1 out=ex2;
var pop school employ services house; run;
proc print data=ex1; proc print data=ex2;
run;

image-20200709235452264

结果表明,5个因子对应的特征值,特征值表示因子贡献率。通常确定因子个数时,要求因子累计贡献率大于80%。结果表明应选取2个因子,记为F1,F2 贡献率分别为57.47%、35.93%。

确定因子载荷阵系数,得到初始的特征向量:

image-20200709235537782

由于对应实际问题,公共因子的实际意义不好解释。因此考虑将指标的系数极值化,即让系数趋于1或0,趋于1说明公共因子与该指标密
切相关,否则趋于0时说明相关程度很低。由此,要做因子旋转实现系数的极值化。

image-20200709235630565

第一公因子和学校、房子、服务密切相关,可推断其代表福利水平,第二个同理推出代表经济水平。

因子得分:

image-20200709235913439

以上为12个样本的5个指标值,以及2个公共指标的得分,因子F1中J地区的得分最高,说明该地区的服务教育服务设施较好。因子F2中L地区的得分最高,说明该地区的就业情况较好。

因子分析与主成分分析的区别与联系:

因子分析、主成分分析都是重要的降维方法(数据简化技术),因子分析可以看作是主成分分析的推广和发展。
主成分分析不能作为一个模型来描述,它只能作为一般的变量变换,主成分是可观测的原始变量的线性组合;因子分析需要构造因子模型,公共因子是潜在的不可观测的变量,一般不能表示为原始变量的线性组合。
因子分析是用潜在的不可观测的变量和随机影响变量的线性组合来表示原始变量,即通过这样的分解来分析原始变量的协方差结构(相依关系)。

7.聚类分析

进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种:最短距离法;最长距离法;中间距离法;重心法;类平均法;可变类平均法;可变法;离差平方和法。

例:从21个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类。

image-20200710133253236

SAS代码:

data ex;
input x1 x2@@; 
cards;
0	6
0	5
2	5
2	3
4	4
4	3
5	1
6	2
6	1
7	0
-4	3
-2	2
-3	2
-3	0
-5	2
1	1
0	-1
0	-2
-1	-1
-1	-3
-3	-5
;
proc cluster   /*软件包*/
data=ex method=ward ccc pseudo outtree=tree;
proc tree data=tree horizontal; /*画图 horizontal表示画平行的,不是竖的*/    
run;
<
  • 7
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
本文档为2016年本人参加全国大学生数学建模参赛最后提交文档(文档中最后附录包含matlab代码) 摘要 小区开放是当今热议的缓解小区周边道路交通堵塞的方法之一,本文在一定假设的前提下,通过建合适的评价体系和数学模型,进行计算机仿真,得到定量的数据结论,对比分析不同小区在进行小区开放后,对周边道路的通行影响。 针对问题一,通过文献查找,获取相关的道路通行评价指标,结合小区周边实际情况,运用BP神经网络,得到一套合适的评价体系(道路交通运行指数,道路交通拥堵率,平均行程速度,平均延误时间)。 针对问题二,使用元胞自动机和网格化图,建立与现实情况相符合的静态建筑物道路参数和动态车辆通行模型,并考虑司机是否具有获得前方道路信息的能力,分别建立基于排队论思想和基于道路阻抗系数的路径选择策略模型。 针对问题三,将不同的小区类型进行合理抽象,得到基本典型结构。结合由问题二得到的模型进行建模仿真,将得到的结果按照问题一得到的评价体系进行评价,并进行可视化和数据分析得到小区开放在一定程度上可以缓解小区周边道路交通压力。 针对问题四,根据问题三得到的结论,通过控制变量法对比各个条件下车流通行的情况,得出有利条件与不利条件。提出合理的建议,并以简单书信形式表述。 关键词:小区开放、BP神经网络、元胞自动机、动态建模
### 回答1: Matlab是一种功能强大的数学软件,可以用于多元线性回归分析和数学建模。多元线性回归是一种统计分析方法,用于建立多个自变量与一个因变量之间的关系模型。在数学建模中,多元线性回归可以用于预测和解释变量之间的关系,通过分析数据集中的多个变量来理解其之间的相互作用。 在Matlab中,可以使用多个内置的函数和工具箱来进行多元线性回归分析和数学建模。首先,可以使用“polyfit”函数来拟合多元线性回归模型,并获得拟合的系数和截距。然后,可以使用“polyval”函数来根据模型和输入的自变量值来预测因变量的值。 此外,Matlab还提供了各种可视化工具,如散点图、线性回归图和残差图,以帮助分析和解释多元线性回归模型的结果。这些图形可以用于评估模型的拟合程度、检查残差是否满足模型假设,并识别离群值和异常观测。 在数学建模中,Matlab还可以用于确定最佳的自变量组合,以优化模型的拟合效果。使用工具箱中的特征选择函数,可以根据特定的准则选择最相关的自变量,从而减少模型中不必要的变量,提高模型的解释能力。 总而言之,Matlab是一种强大的工具,可用于多元线性回归分析和数学建模。它提供了各种函数和工具箱,可以用于拟合模型、预测因变量、可视化结果以及优化模型的变量选择。使用Matlab进行多元线性回归分析和数学建模,可以更好地理解变量之间的关系,并做出准确的预测和解释。 ### 回答2: Matlab作为一种强大的数学建模工具,可以通过多元线性回归分析对数学建模问题进行求解。多元线性回归分析是一种常用的统计方法,用于建立和分析多个自变量与一个因变量之间的线性关系模型。在数学建模中,我们通常需要根据给定的数据集合,通过多元线性回归分析求解最佳拟合模型。 在Matlab中,可以使用内置的regress函数来进行多元线性回归分析。首先,我们需要准备好所需的数据集合,并且将自变量和因变量分别存储在不同的向量中。然后,使用regress函数进行回归分析,输入自变量矩阵和因变量向量,即可得到回归系数以及其他统计结果。 通过多元线性回归分析,我们可以了解自变量数量与因变量之间的关系,进而可以预测和优化因变量的取值。此外,通过对回归系数的分析,我们还可以了解各自变量对因变量的重要性以及它们之间的相互关系。 总之,Matlab提供了强大的多元线性回归分析工具,可以帮助我们在数学建模中对问题进行求解和分析。它可以通过对数据的拟合来研究和预测因变量,从而为解决实际问题提供了有效的数学模型建立方法。 ### 回答3: Matlab是一种功能强大的数值计算和数据分析软件,可以广泛应用于多元线性回归分析和数学建模。多元线性回归分析是一种统计方法,用于探究多个自变量对一个因变量的影响。 在Matlab中,我们可以使用regress函数进行多元线性回归分析。该函数可以根据给定的自变量和因变量数据集,计算出回归模型的系数和相关统计量。 首先,我们需要将自变量和因变量的数据导入到Matlab中,可以使用矩阵或向量的形式存储数据。然后,通过调用regress函数,指定自变量和因变量的位置,即可进行回归分析。函数的输出结果包括回归系数、残差、决定系数等。 使用Matlab进行数学建模时,可以利用多元线性回归分析来构建模型。通过收集和整理相关数据,建立自变量和因变量之间的数学关系,在回归分析中确定最佳拟合的回归方程。这个建立的模型可以用来预测未知的因变量值,或者进行参数估计和假设检验等。 在数学建模中,Matlab提供了丰富的工具箱和函数,可以用于数据可视化、模型拟合、参数估计、误差分析等。例如,通过绘制回归模型的拟合曲线和残差图,可以对模型的准确性进行评估。此外,还可以使用交叉验证等方法来评估模型的预测能力。 总而言之,Matlab可以用于实现多元线性回归分析和数学建模。其强大的功能和灵活的编程环境使其成为进行数值计算和数据分析的理想工具,在科学研究和实际应用中得到了广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值