统计模型-基于sas

原创已于 2024-04-07 11:52:56 修改

· 1.3k 阅读

8 ·

版权

文章标签：

#数学建模 #统计模型

于 2021-04-05 18:47:49 首次发布

数据分析专栏收录该内容

5 篇文章

订阅专栏

本文介绍了统计分析中的核心概念，包括参数估计、假设检验、列联表分析和方差分析。此外，详细讨论了相关与回归分析，涵盖线性、非线性和逻辑回归。聚类与判别分析方面，提到了系统聚类、变量聚类、快速聚类、一般判别分析和典型判别分析。降维分析中涉及主成分分析、因子分析、典型相关分析和多维标度分析。预测分析部分阐述了时序分析和生存分析的应用。这些方法在科学研究和数据分析中扮演着重要角色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 假设检验与方差分析

1.1 统计推断（PROC TTEST）

统计推断是根据总体随机抽样获取的样本数据的分析来推断总体的统计方法，统计推断涉及两大核心问题，参数估计和假设测验。

参数估计是利用样本统计量对总体统计参数进行估计：点估计是直接使用抽样样本获取统计参数值估计总体的特征；区间估计给出一个参数的区间来估计总体的参数。
假设测验在对总体参数进行推断时先给出一定假设，再通过统计检验以判断假设条件是否成立，从而实现对总体的统计推断。

1.2 列联表分析（PROG FREQ）

列联表分析是在列联表的基础上对其中的属性变量数据进行统计分析，以了解单个属性变量及联合属性变量的分布。

1.3 方差分析（PROC ANOVA）

方差分析是研究一个或多个因素对试验过程中某项指标的影响因素，并比较因素的各水平之间是否有显著差异。

方差：在方差分析中，方差是衡量数据差异程度的重要变量，可以分为各因素水平的方差（组间方差）和误差的方差（组内方差）。
统计量：方差分析通过F检验来比较因素的不同水平是否都对指标产生显著影响。
前提假设：数据正态性、方差齐性、方差可加性。

2 相关与回归分析

2.1 相关分析（PROC CORR）

相关关系是研究两个变量之间联系程度的分析方法，在相关分析中，两个变量的相关程度通过相关系数来衡量。

2.2 回归分析（PROC REG）

线性回归是定量变里间的线性关系的重要统计方法，可以实现自变量对因变量的预测，通过最小二乘算法可以找到最佳的模型系数，使线性回归模型的真实值与预测值之间的误差的平方和最小。目前常用的变量选择方法：前向、后向、逐步删除。

线性回归分析的基本流程：

线性回归模型数据的选取（可通过散点图大致查看两变量的关系）；
最小二乘法计算回归系数；
回归系数显著性检验；
模型拟合优度评价（模型决定系数、t统计量、f统计量）；
数据预测。

2.3 非线性回归分析（PROC NLIN）

非线性回归目前的计算方法有很多，其本质是模型拟合最优参数的寻值过程。

2.4 逻辑回归分析（PROC LOGISTIC）

Logistic回归考虑二项属性数据与相关变量的线性关系，是研究分类观察结果与其影响因素之间线性关系的一种分析模型。

3 聚类与判别分析

3.1 系统聚类（PROC CLUSTER）

系统聚类是常用的样本（变量）聚类的方法，通过各种距离统计量描述各样本（变量）间的相似程度，根据距离的远近进行样本（变量）的分类。

距离度量：明考夫斯基距离（特殊形式：绝对值距离/曼哈顿距离、欧式距离、切比雪夫距离）、兰氏距离和马氏距离。
【注】明氏距离和兰氏距离都没有考虑变量间的相关性，因此这两种距离更适合各变量之间互不相关的情形。马氏距离则考虑各变量之间的相关性，并且与各变量的单位无关，但没有关于不同类的先验知识，距离公式中的S就无法计算。

3.2 变量聚类（PROC VARCLUS）

为了了解变量之间的关系，需要通过变量聚类实现对变量的分类，从而从各个类别中挑选出关键变量，代替数据的整体特征。变量聚类主要是通过相关性来判断变量之间的关系，变量聚类类的选择基于主成分变换思想，分类依据是主成分解释能力最强。

3.3 快速聚类（PROC FASTCLUS）

快速聚类根据初始的凝聚点将样本进行初步分类，然后根据初步分类结果不断优化分类结果，至产生最好的分类结果为止，是有效处理大样本数据分类的方法。

3.4 一般判别分析（PROC DISCRIM）

判别分析根据观测数据已有的数据分类情况，建立一定的判别准则（判别函数），使其错判率最低，进而基于判别准则实现对未知样本所属类别判断的统计方法，一般判别分析是最基础的判别分析。

距离判别法是根据距离分类。
贝叶斯判别法是以概率为准则的判别分析：计算各个样本属于各个类别的概率，根据概率值的大小使每个样本到其所分的类中的概率最大。

3.5 典型判别分析（PROC CANDISC -> PROC DISCRIM）

典型判别分析/Fihe判别分析的基本思想类似于主成分分析，通过数据的降维技术，找到能区分各类别的变量的线性组合的线性判别函数。

3.6 逐步判别分析（PROC STEPDISC -> PROC DISCRIM）

逐步判别分析选择对判别函数有显著影响的变量，建立最后的判别函数。

4 降维分析

4.1 主成分分析（PROC PRINCOMP）

主成分分析用于对多变量数据进行压缩，提取关键变量信息，从而通过较少的综合变量反映原始的多变量海量数据信息，在主成分分析中所提取的主成分为原始变量的线性组合。其中，第一个新坐标轴选择的是原始数据中方差最大的方向，第二个新坐标轴的选择和第一个坐标轴正交且具有次大方差的方向（正交是为了数据有效性损失最小，另一个原因是特征值的特征向量是正交的），以此类推。

主成分分析基本步骤（F=aX+e）：