canoco5主成分分析步骤_主成分分析之信用等级评估实例应用讲解

最新推荐文章于 2020-11-28 10:40:58 发布

weixin_39794130

最新推荐文章于 2020-11-28 10:40:58 发布

阅读量1.9k

点赞数 1

文章标签： canoco5主成分分析步骤 matlab主成分分析代码主成分分析matlab代码主成分分析和因子分析主成分分析法案例小波分析matlab应用实例

主成分分析

主要有以下几方面的应用：

1．主成分分析能降低所研究的数据空间的维数。而低维代替高维所损失的信息很少。即使只有一个主成分Y_l(即 m＝1)时，这个F_l仍是使用全部X变量(p个)得到的。例如要计算Fl的均值也得使用全部x的均值。在所选的前m个主成分中，如果某个X_i的系数全部近似于零的话，就可以把这个Xi删除，这也是一种删除多余变量的方法。

2. 多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形，多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而，经过主成分分析后，我们可以选取前两个主成分或其中某两个主成分，根据主成分的得分，画出n个样品在二维平面上的分布情况，由图形可直观地看出各样品在主分量中的地位。

3．由主成分分析法构造回归模型。即把各主成分作

为新自变量代替原来自变量x做回归分析。

例1

应收账款是指企业因对外销售产品、材料、提供劳务及其它原因，应向购货单位或接受劳务的单位收取的款项，包括应收销货款、其它应收款和应收票据等。出于扩大销售的竞争需要，企业不得不以赊销或其它优惠的方式招揽顾客，由于销售和收款的时间差，于是产生了应收款项。应收款赊销的效果的好坏，不仅依赖于企业的信用政策，还依赖于顾客的信用程度。由此，评价顾客的信用等级，了解顾客的综合信用程度，做到“知己知彼，百战不殆”，对加强企业的应收账款管理大有帮助。某企业为了了解其客户的信用程度，采用西方银行信用评估常用的5C方法，5C的目的是说明顾客违约的可能性。

1、品格(用X₁表示)，指顾客的信誉，履行偿还义务的可能性。企业可以通过过去的付款记录得到此项。

2、能力(用X₂表示)，指顾客的偿还能力。即其流动资产的数量和质量以及流动负债的比率。顾客的流动资产越多，其转化为现金支付款项的能力越强。同时，还应注意顾客流动资产的质量，看其是否会出现存货过多过时质量下降，影响其变现能力和支付能力。

3、资本(用X₃表示)，指顾客的财务实力和财务状况，表明顾客可能偿还债务的背景。

4、附带的担保品(用X₄表示)，指借款人以容易出售的资产做抵押。

5、环境条件(用X₅表示)，指企业的外部因素，即指非企业本身能控制或操纵的因素。

首先抽取了10家具有可比性的同类企业作为样本，又请8位专家分别给10个企业的5个指标打分，然后分别计算企业5个指标的平均值，如表。

第一主成份的贡献率为84.6%，

第一主成份

Z1=0.469X₁+0.485X₂+0.473X₃+0.462X₄+0.329X₅的各项系数大致相等，且均为正数，说明第一主成份对所有的信用评价指标都有近似的载荷，是对所有指标的一个综合测度，可以作为综合的信用等级指标。可以用来排序。将原始数据的值中心化后，代入第一主成份Z1的表示式，计算各企业的得分，并按分值大小排序：

在正确评估了顾客的信用等级后，就能正确制定出对其的信用期、收帐政策等，这对于加强应收帐款的管理大有帮助。

例2

我们根据表1给出的数据，对某农业生态经济系统做主成分分析

表1 某农业生态经济系统各区域单元的有关数据

步骤如下：(1)将表1中的数据作标准化处理，然后计算相关系数矩阵(见表2)。

表2　相关系数矩阵

表3　特征值及主成分贡献率

(2)由相关系数矩阵计算特征值，以及各个主成分的贡献率与累计贡献率(见表3)。由表3可知，第一，第二，第三主成分的累计贡献率已高达86.596%(大于85%)，故只需要求出第一、第二、第三主成分z₁，z₂，z₃即可。

(3)对于特征值=4.6610，=2.0890，=1.0430分别求出其特征向量e₁，e₂，e₃，再用公式(2)计算各变量x₁，x₂，…，x₉在主成分Z₁，Z₂，Z₃上的载荷(表4)。

表4 主成分载荷

分析：

①第一主成分z₁与x₁，x₅，x₆，x₇，x₉呈显出较强的正相关，与x₃呈显出较强的负相关，而这几个变量则综合反映了生态经济结构状况，因此可以认为第一主成分z₁是生态经济结构的代表。

②第二主成分z₂与x₂，x₄，x₅呈显出较强的正相关，与x1呈显出较强的负相关，其中，除了x₁为人口总数外，x₂，x₄，x₅都反映了人均占有资源量的情况，因此可以认为第二主成分z₂代表了人均资源量。

③第三主成分z₃，与x₈呈显出的正相关程度最高，其次是x₆，而与x₇呈负相关，因此可以认为第三主成分在一定程度上代表了农业经济结构。

④另外，表4中最后一列(占方差的百分数)，在一定程度反映了三个主成分z₁、z₂、z₃包含原变量(x₁，x₂，…，x₉)的信息量多少。

显然，用三个主成分z₁、z₂、z₃代替原来9个变量(x1，x2，…，x9)，描述农业生态经济系统，可以使问题更进一步简化、明了。

例3

成绩数据(student.sav)

100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。

例中的的数据点是六维的；也就是说，每个观测值是6维空间中的一个点。我们希望把6维空间用低维空间表示。

对于我们的数据，SPSS输出为

这里的Initial Eigenvalues是数据相关阵的特征值。头两个成分特征值累积占了总方差的81.142%。后面的特征值的贡献越来越少。

特征值的贡献还可以从SPSS的图看出

如何将原始六个变量的线性组合确定成两个主成分？SPSS可以输出下面的表。

这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。比如第一主成分作为数学、物理、化学、语文、历史、英语这六个原先变量的线性组合，系数(比例)为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。

如用x₁,x₂,x₃,x₄,x₅,x₆分别表示原先的六个变量，而用y₁,y₂,y₃,y₄,y₅,y₆表示新的主成分，那么，原先六个变量x₁,x₂,x₃,x₄,x₅,x₆与第一和第二主成分y₁,y₂的关系为：

X₁=-0.806y₁ + 0.353y₂

X₂=-0.674y₁ + 0.531y₂

X₃=-0.675y₁ + 0.513y₂

X₄= 0.893y₁ + 0.306y₂

X₅= 0.825y₁ + 0.435y₂

X₆= 0.836y₁ + 0.425y₂

这些系数称为主成分载荷(loading)，它表示主成分和相应的原先变量的相关系数。

比如x₁表示式中y₁的系数为-0.806，这就是说第一主成分和数学变量的相关系数为-0.806。

相关系数(绝对值)越大，主成分对该变量的代表性也越大。可以看得出，第一主成分对各个变量解释得都很充分。而最后的几个主成分和原先的变量就不那么相关了。

可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做载荷图。

该图左面三个点是数学、物理、化学三科，右边三个点是语文、历史、外语三科。图中的六个点由于比较挤，不易分清，但只要认识到这些点的坐标是前面的第一二主成分载荷，坐标是前面表中第一二列中的数目，还是可以识别的。

因子分析

主成分分析从原理上是寻找椭球的所有主轴。因此，原先有几个变量，就有几个主成分。

而因子分析是事先确定要找几个成分，这里叫因子(factor)。

这使得在数学模型上，因子分析和主成分分析有不少区别。而且因子分析的计算也复杂得多。根据因子分析模型的特点，它还多一道工序：因子旋转(factor rotation)；这个步骤可以使结果更好。

当然，对于计算机来说，因子分析并不比主成分分析多费多少时间。从输出的结果来看，因子分析也有因子载荷(factor loading)的概念，代表了因子和原先变量的相关系数。但是在输出中的因子和原来变量相关系数的公式中的系数不是因子载荷，也给出了二维图；该图虽然不是载荷图，但解释和主成分分析的载荷图类似。

对于我们的数据，SPSS因子分析输出为