第十届统计建模比赛知识总结及spss分析方法介绍

文章目录

一、变量

1.名义变量(分类变量) :名义

  • 名义变量是一种用于区分不同组或类别的变量,其取值表示不同的类别或属性,但这些类别之间没有顺序或等级关系。
  • 例如,性别(男、女)、民族(汉族、藏族、维吾尔族)等都属于名义变量。

2. 有序变量(等级变量): 有序

  • 有序变量是一种具有顺序或等级关系的变量,其取值表示不同类别之间的顺序关系,但这些取值之间的间隔并没有固定的意义。
  • 例如,教育程度(小学、初中、高中、大学)、日期属于有序变量。

3. 连续变量: 标度

  • 连续变量是一种可以在一定范围内取任意值的变量,其取值可以是任意的实数值。连续变量通常用于表示度量或数量,可以进行数值运算和比较。
  • 例如,身高、体重、温度等都属于连续变量。

4. 离散变量

  • 离散变量是一种只能取有限个数值或一系列特定数值的变量,取值之间存在间隔,但不是连续的。
  • 例如,家庭人数、学生人数、投掷骰子的点数等都属于离散变量。

5. 二元变量(二值变量)

  • 二元变量是一种只能取两个取值之一的变量,通常用0和1表示。
  • 例如,考试成绩是否及格(及格为1,不及格为0)等属于二元变量。

二、spss常用分析技术

1、描述统计

(1)偏度(Skewness)

  • 它衡量的是数据分布的不对称性,即数据的偏态程度和方向。当数据分布左右对称时,偏度为0;若偏度大于0,则称为右偏或正偏,表示数据在均值右侧有较多的极端值;反之称为左偏或负偏,表示数据在均值的左侧有较多的极端值。在金融市场中,收益率的分布往往呈现出一定的偏度,通过对偏度的分析可以更好地理解市场的风险特性。

(2)峰度(Kurtosis)

  • 它是研究数据分布陡峭或者平滑的统计量,反映的是频数分布曲线顶端的尖峭程度或者说峰值的高低。正态分布的峰度为3,如果一组数据的峰度高于3,那么其分布形态相较于正态分布就更加陡峭,说明数据中存在较多的大幅度偏离平均值的异常值;相反,如果峰度低于3,则说明分布相对平缓,异常值较少。金融市场中的高峰度通常意味着存在发生大幅波动的可能性,因此投资者需要对此保持警惕。
  • 在统计学中,峰度和偏度是衡量数据分布形态的两个重要指标。
  • 一般来说,如果数据的峰度接近3,偏度接近0,那么可以近似地将其看作是正态分布。
  • 具体来说,峰度是描述数据分布陡峭或平坦程度的统计量,正态分布的峰度为3。如果某个数据集的峰度与3相差不大,说明该数据集的分布形态与正态分布相似。
  • 偏度则是描述数据分布不对称性的统计量,正态分布的偏度为0。如果某个数据集的偏度接近0,说明该数据集没有明显的左偏或右偏,与正态分布的对称性相似。
  • 当然,需要注意的是,仅仅依靠峰度和偏度来判断数据是否服从正态分布可能并不完全准确。在实际应用中,还需要结合其他统计方法和图形来进行综合判断。

2、比较平均值

(1)独立样本T检验(Independent Samples T-Test)

  • 独立样本T检验用于比较两个独立样本(不同的样本)的均值是否存在显著差异。该检验假设两个样本是独立的,且数据服从正态分布。
  • 独立样本T检验的零假设是两个样本的均值相等,备择假设是两个样本的均值不相等。通过计算T值和P值来判断是否拒绝零假设。(P值是显著性)

(2)成对样本T检验(Paired Samples T-Test)

  • 成对样本T检验用于比较同一组样本在两个不同条件下的均值是否存在显著差异。这种检验适用于样本之间存在配对关系的情况。
  • 成对样本T检验的零假设是两个条件下的均值没有显著差异,备择假设是两个条件下的均值存在显著差异。通过计算T值和P值来判断是否拒绝零假设。

(3)单因素ANOVA检验(One-Way Analysis of Variance)

  • 单因素ANOVA检验用于比较三个或三个以上组别之间(一个变量分三类及以上)的均值是否存在显著差异。该检验假设各组别数据服从正态分布,且方差齐性成立。
  • 单因素ANOVA检验的零假设是所有组别的均值相等,备择假设是至少有一组的均值与其他组不同。通过计算F值和P值来判断是否拒绝零假设。

这三种假设检验方法在实际研究中经常用于比较不同组别的均值差异,帮助研究者进行统计推断和决策。在进行假设检验时,需要注意数据的前提条件和假设是否成立,以确保结果的可靠性和有效性。

(4)存在显著差异说明什么?

解释
在统计学中,当我们进行假设检验(如T检验、ANOVA检验等)时,如果得到的P值小于事先设定的显著性水平(通常为0.05),我们通常会得出结论“存在显著差异”(Significant Difference)。
具体来说,当我们得出“存在显著差异”的结论时,意味着我们有足够的统计证据来拒绝零假设,即我们有理由相信样本之间的差异不是由随机因素引起的,而是由于真实的总体差异导致的。这种差异可能是由于不同组别之间的实际差异,而不仅仅是由抽样误差引起的。
因此,当我们得出“存在显著差异”的结论时,我们可以合理地认为所研究的变量之间确实存在着一定的关联或差异,这种关联或差异不太可能是由随机因素引起的。这对于研究者来说是一个重要的发现,可以帮助他们做出相应的决策或推断。
需要注意的是,显著性水平(通常为0.05)是一种事先设定的标准,用于判断结果是否具有统计学意义。因此,“存在显著差异”并不意味着差异的大小或重要性,而仅仅表示我们有充分的理由相信样本之间的差异不是由随机因素引起的。

(5)怎么判断是否拒绝零假设,拒绝零假设又说明什么?

解释
统计学中,我们使用假设检验来判断样本数据是否提供足够的证据来支持对总体参数的某种假设。在进行假设检验时,我们需要设定一个显著性水平(通常为0.05),用于判断是否拒绝零假设。
判断是否拒绝零假设的步骤如下:1. 设定假设: 我们首先提出一个零假设(H0)和一个备择假设(H1)。零假设通常是我们想要进行检验的陈述,备择假设则是我们想要验证的陈述。2. 计算统计量: 根据样本数据计算相应的统计量(如T值、F值等),用于衡量样本数据与零假设之间的偏差。3. 计算P值:根据计算得到的统计量,计算P值。P值表示在零假设成立的情况下,观察到样本数据或更极端情况的概率。4. 比较P值和显著性水平: 将计算得到的P值与事先设定的显著性水平进行比较。通常,显著性水平设定为0.05。如果P值小于显著性水平,则说明存在差异性显著,我们有足够的证据来拒绝零假设。5. 做出判断: 如果P值小于显著性水平,我们拒绝零假设,接受备择假设;如果P值大于或等于显著性水平,我们不拒绝零假设,无法支持备择假设。
拒绝零假设通常意味着我们有足够的统计证据来支持备择假设,即我们认为样本数据提供了足够的证据来表明总体参数存在某种差异或关联。这对于研究者来说是一个重要的发现,可以帮助他们做出相应的决策或推断。
需要注意的是,拒绝零假设并不意味着备择假设一定是正确的,而仅仅表示我们有足够的证据来支持备择假设。在假设检验中,我们通常关注的是拒绝零假设的结论,以便进行进一步推断和分析。

3、一般线性模型

(1)单变量 被式间设计

  • 在这种设计中,只有一个自变量(或称为独立变量),并且每个参与者只接受一个自变量的水平处理。例如,如果想比较两种教学方法(方法A和方法B)的效果,可以将一部分学生分配给方法A,另一部分学生分配给方法B。这就是一个单变量的被式间设计。

(2)多变量 被式内设计 多因变量

  • 在这种设计中,有多个自变量,并且每个参与者都会接受所有自变量水平的处理。这通常涉及到对同一组参与者进行多次测量,每次改变一个或多个自变量的水平。这种方法可以减少个体差异对实验结果的影响,但可能存在顺序效应或练习效应。
  • 多因变量指的是实验中测量的多个因变量(或称为依赖变量)。例如,在一个关于教学方法的研究中,除了测量学生的成绩外,还可能测量他们的学习兴趣、自信心等,这些都是因变量

(3)重复测量 混合实验设计 被式间+被式内

  • 这种设计结合了被式间和被式内的元素。例如,可以在一部分参与者中比较两种教学方法(被式间因素),同时测量他们在学习过程中的多个时间点上的表现(被式内因素)。

4、相关

(1)双变量相关性分析

  • 皮尔逊相关系数:适用于两个连续变量之间的线性关系测量。它衡量了两个变量之间线性关联的程度和方向。皮尔逊相关系数的值域在-1到1之间,其中1表示完全正相关,-1表示完全负相关,0表示无相关。
  • 肯德尔tau-b等级相关系数:用于衡量两个等级变量之间的一致性。等级变量是那些取值具有顺序或等级性质,但具体数值间的差异并不重要的变量。肯德尔tau-b考虑了并列排名的情况,适用于数据中存在并列等级时的情况。
  • 斯皮尔曼秩相关系数:也是用于衡量两个变量之间的等级相关性,但它基于秩次进行计算,而不是变量的原始值。与肯德尔tau不同,斯皮尔曼秩相关系数对于变量之间的具体等级差异更为敏感。虽然它经常被用于等级变量,但实际上也可以用于连续变量,特别是当数据不符合正态分布或总体分布未知时。

(2)偏相关相关性分析

  • 偏相关分析是一种在控制一个或多个其他变量的影响下,分析两个变量之间相关性的统计方法。它可以帮助我们了解在排除了其他变量的影响后,两个特定变量之间的真实关系。例如,如果我们想研究学习时间和学习成绩之间的关系,但同时我们也知道学习时间可能受到学生家庭背景的影响,那么我们就可以通过偏相关分析来控制家庭背景这一变量,从而更准确地了解学习时间和学习成绩之间的相关性。这种方法在多元回归分析、路径分析和结构方程模型等复杂统计模型中都有广泛应用。

5、回归

(1)一元线性回归:

  • 这是一种简单的线性回归模型,用于探索两个变量之间的关系,其中一个变量是因变量(响应变量),另一个是自变量(解释变量)。
  • 适用于:连续变量(自变量和因变量都是连续的)。

(2)多元线性回归:

  • 当存在多个自变量影响一个因变量时,使用多元线性回归模型。
  • 适用于:多个连续自变量和一个连续因变量。

(3)Logistic回归:

  • Logistic回归(也称作逻辑回归)是一种用于处理因变量是二元分类结果(例如,是/否,1/0,成功/失败)的统计方法。
  • 通过逻辑函数将线性回归的输出转换为介于0和1之间的概率值。

(4)一元Logistic回归:

  • 与一元线性回归类似,但是因变量是二元的(例如,是/否)。
  • 适用于:一个连续自变量和一个二元分类因变量。

(5)多元Logistic回归:

  • 当存在多个自变量影响一个二元分类因变量时,使用多元Logistic回归。
  • 适用于:多个自变量(可以是连续的或分类的)和一个二元分类因变量。

(6)有序Logistic回归(针对有序等级变量):

  • 当因变量是有序分类变量(如高中低)时,可以使用有序Logistic回归。
    这种方法考虑了类别的有序性,不同于普通的多项Logistic回归。
  • 适用于:一个或多个自变量和一个有序分类因变量。

(7)标准化系数Beta是什么?

解释
在统计学中,标准化系数(Standardized Coefficient)Beta 是一种用于衡量自变量对因变量的影响程度的指标。在多元线性回归分析中,标准化系数 Beta 可以帮助比较不同自变量对因变量的影响强度,因为它们已经被标准化为相同的度量单位。
具体来说,标准化系数 Beta 是指在多元线性回归模型中,自变量的系数经过标准化处理后得到的系数。标准化系数 Beta 的计算公式如下:
Beta = b * (SDx / SDy)
其中:Beta:标准化系数 b:自变量的回归系数(未标准化)SDx:自变量的标准差 SDy:因变量的标准差
通过计算标准化系数 Beta,我们可以消除不同自变量尺度的影响,使得不同自变量之间的影响程度更容易比较和解释。标准化系数 Beta 的绝对值越大,表示自变量对因变量的影响越显著;正负号表示自变量对因变量的正向或负向影响。
在实际应用中,标准化系数 Beta 可以帮助研究者识别哪些自变量对因变量的影响更为显著,从而更好地理解变量之间的关系和影响。

6、降维

(1)因子分析 检验共同方法偏差 所有变量进去

  • 累积小于40%说明有共同方法偏差
  • 共同方法偏差(Common Method Bias)是指在研究中由于使用相同的方法、来源或评价者对多个变量进行测量而引起的系统性偏差。这种偏差可能导致变量之间的关系被错误地解释或高估。

共同方法偏差可能出现在各种研究设计中,特别是在自我报告问卷调查和交叉部门研究中。一些常见的引起共同方法偏差的原因包括:

  1. 测量方法相同:当多个变量使用相同的测量方法或来源进行评估时,可能会导致共同方法偏差。
  2. 主观评价:如果测量工具依赖于被调查者的主观评价,可能会引起共同方法偏差。
  3. 时间因素:如果所有变量在同一时间点或短时间内进行测量,可能会增加共同方法偏差的风险。
  4. 研究者偏见:研究者的主观偏见或期望也可能影响数据的收集和解释,从而引起共同方法偏差。

共同方法偏差可能会对研究结果产生负面影响,包括:

  • 伪相关性:共同方法偏差可能导致变量之间出现虚假的相关性,使得研究者错误地认为变量之间存在关联。
  • 效应高估:共同方法偏差可能导致对变量之间关系的高估,使得研究者过度解释变量之间的影响。

为了减少或纠正共同方法偏差,研究者可以采取以下方法:

  1. 多源数据收集:使用不同的数据来源或方法来收集数据,减少对同一方法的依赖。
  2. 匿名调查:保持被调查者的匿名性,减少主观评价的影响。
  3. 随机化:在数据收集过程中引入随机化,减少系统性偏差的影响。
  4. 敏感性分析:对研究结果进行敏感性分析,评估共同方法偏差对结果的影响。

通过识别和纠正共同方法偏差,研究者可以提高研究的可靠性和准确性,确保对变量之间关系的正确解释。

(2)因素分析

1、KMO和巴特利特球形度检验(Bartlett’s Test of Sphericity)

在进行因子分析之前,通常需要进行一些检验来确定数据是否适合进行因子分析。

(1)KMO(Kaiser-Meyer-Olkin)检验:
  • KMO检验用于检查变量间的偏相关性。KMO统计量的值介于0和1之间。
  • KMO值越接近1,表示变量间的相关性越强,越适合进行因子分析。
  • 通常,KMO值大于0.6被认为是“可以接受”的,大于0.7则被认为是“较好”的,大于0.8则是“非常好”的。
(2)巴特利特球形度检验(Bartlett’s Test of Sphericity):
  • 该检验用于检验原始变量的相关系数矩阵是否是单位矩阵(即各变量是否独立)。
    如果拒绝原假设(即相关系数矩阵不是单位矩阵),则说明变量间存在相关性,适合进行因子分析。
  • 巴特利特检验的统计量通常服从χ²(卡方)分布。
2、旋转方法

在因子分析中,旋转是一个重要步骤,它可以帮助解释因子的含义。旋转的目的是使因子载荷矩阵的结构更简单、更易于解释。

(1)最大方差法(Varimax Rotation):
  • 这是一种正交旋转方法,旨在最大化每个因子上的载荷的平方和,从而使得每个因子只与少数几个原始变量有高度相关性。
  • 通过这种旋转,可以得到更容易解释的因子。
(2)直接斜交法(Direct Oblimin Rotation):
  • 这是一种斜交(非正交)旋转方法,允许因子之间存在一定的相关性。
  • 与正交旋转不同,斜交旋转不强制因子之间完全独立,这可能在某些情况下更符合实际情况。
    直接斜交法试图在简化因子载荷矩阵的同时,保留因子之间的相关性信息。

在进行因子分析时,选择合适的旋转方法取决于研究的具体目的和数据的特点。如果希望得到的因子尽可能独立,可以选择最大方差法;如果认为因子之间可能存在相关性,则可以选择直接斜交法。

7、刻度->可靠性分析 所有变量进去

  • 克隆巴赫Alpha大于0.8说明可靠

  • 克隆巴赫Alpha(Cronbach’s Alpha)是一种常用的信度测量方法,用于评估量表或测试的内部一致性。它衡量的是量表中各个项目之间的相关性,即它们是否在测量同一概念或特质。

  • 当克隆巴赫Alpha值大于0.8时,通常被认为是可靠的。这意味着量表中的项目在测量相同的概念时具有很高的内部一致性。这样的信度水平足以支持研究结论的有效性,并可以用于重要的决策。

  • 然而,值得注意的是,克隆巴赫Alpha值受到多种因素的影响,包括量表的项目数量、项目间的相关性以及受试者的特性。因此,在使用克隆巴赫Alpha评估信度时,应结合具体的研究背景和数据情况进行综合判断。

  • 总之,克隆巴赫Alpha大于0.8表明量表具有很高的内部一致性,可以认为是可靠的测量工具。

8、非参数检验->旧对话框->卡方检验

  • 卡方检验(Chi-Square Test)是一种常用的统计方法,用于检验两个或多个分类变量之间是否存在关联或独立性。具体来说,卡方检验用于比较观察频数与期望频数之间的差异,从而判断两个变量之间的关系是否显著。

卡方检验通常用于以下几种情况:

  1. 检验分类变量之间的关联

    • 卡方检验可以用来检验两个分类变量之间是否存在关联。例如,性别与购买偏好之间是否存在关联。
  2. 检验观察频数与期望频数的拟合度

    • 在卡方拟合度检验中,我们可以比较观察频数与期望频数之间的差异,从而评估模型的拟合度。这种检验常用于验证模型是否符合观察数据。
  3. 检验变量之间的独立性

    • 卡方独立性检验用于检验两个变量之间是否独立。如果观察频数与期望频数之间的差异显著,我们可以拒绝变量之间独立的零假设。
  4. 检验实验数据的统计显著性

    • 在实验设计中,卡方检验可以用来检验不同处理组别之间的差异是否显著。通过比较观察频数与期望频数,我们可以评估实验结果的统计显著性。

总的来说,卡方检验是一种常用的统计方法,适用于比较分类变量之间的关系、拟合度和独立性。通过卡方检验,我们可以评估变量之间的关联程度,验证模型的拟合度,以及检验实验数据的统计显著性。

卡方检验(Chi-SquareTest)用于检验两个或多个分类变量之间是否存在关联或独立性。在卡方检验中,我们比较观察频数与期望频数之间的差异,以判断两个变量之间的关系是否显著。以下是卡方检验的基本步骤和判断方法:

检验步骤:

  1. 建立假设

    • 零假设(H0):两个变量之间独立,没有关联。
    • 备择假设(H1):两个变量之间存在关联,不独立。
  2. 计算卡方值

    • 首先,构建列联表(Contingency Table),将两个变量的观察频数填入表格中。
    • 计算每个单元格的期望频数,即在零假设下预期的频数。
    • 计算卡方值,公式为:χ² = Σ((观察频数 - 期望频数)² / 期望频数)。
  3. 确定自由度

    • 自由度的计算取决于列联表的维度。对于两个分类变量的卡方检验,自由度为 (行数-1) * (列数-1)。
  4. 查找临界值

    • 根据设定的显著性水平(通常为0.05),查找卡方分布表中对应自由度的临界值。
  5. 判断显著性

    • 比较计算得到的卡方值与临界值。如果计算得到的卡方值大于临界值,则拒绝零假设,认为两个变量之间存在关联,关系显著。
    • 如果卡方值小于临界值,则接受零假设,认为两个变量之间独立,关系不显著。

判断关系显著性:

  • 如果卡方值大于临界值,我们可以认为两个变量之间的关系是显著的,即它们不是独立的。
  • 显著性水平(通常为0.05)表示我们接受5%的错误率来拒绝零假设。因此,如果P值小于0.05,我们通常会认为关系是显著的。

通过以上步骤,我们可以进行卡方检验来判断两个或多个分类变量之间是否存在关联或独立性,并判断这种关系是否显著。

三、检验是否符合正态分布

1、频率

在这里插入图片描述
在这里插入图片描述

2、P-P图(Probability-Probability Plot)

在这里插入图片描述
在这里插入图片描述

  • PP图是用来比较实际数据的累积分布与某个理论分布(如正态分布)的累积分布是否一致。在PP图上,如果数据确实来自该理论分布,那么图中的点应该大致沿着45度线分布。

解读方法:
如果点紧密地围绕在45度线附近,说明数据很可能来自该理论分布。
如果点偏离45度线较远,则说明数据与该理论分布存在差异。
在这里插入图片描述

3、Q-Q图

在这里插入图片描述
在这里插入图片描述

  • QQ图用于通过画出实际数据分位数与理论分布分位数之间的关系,来评估数据是否符合某个理论分布。在QQ图上,如果数据符合理论分布,那么图中的点应该大致沿着一条直线分布。

解读方法:

如果点紧密地围绕在一条直线上,说明数据很可能来自该理论分布。 如果点明显偏离直线,尤其是在分布的尾部,则说明数据与该理论分布不符。
在这里插入图片描述

4、K-S检验

在这里插入图片描述

5、正态性检验

在这里插入图片描述
在这里插入图片描述

  • 柯尔莫戈洛夫-斯米诺夫 即 K-S检验
  • 夏皮洛-威尔克 即 X-W检验 样本较少时看它
  • 显著性大于0.05说明符合正态分布

注意事项:
1.样本大小:这两种检验对样本大小敏感。对于非常小的样本,检验可能没有足够的统计力来检测偏离正态分布的情况。对于非常大的样本,即使是很小的偏离正态分布也可能导致检验拒绝正态分布的假设。
2.数据探索:在执行正态性检验之前,最好先进行数据探索,例如通过绘制直方图、QQ图或箱线图来初步判断数据的分布情况。
3.多重检验:如果你对多个数据集进行正态性检验,需要注意多重检验的问题,以避免第一类错误(即错误地拒绝正态分布的假设)的增加。

  • 23
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是一份统计建模与分析课程中SPSS相关性分析的简要教程: 1. 进入SPSS软件:打开SPSS软件,创建一个新的数据文件,并将数据录入其中。如果数据已经存在于其他文件中,可以选择导入数据。 2. 选择相关性分析:在SPSS菜单栏中,选择“分析”-“相关性”-“双变量”,弹出相关性分析对话框。 3. 选择变量:在相关性分析对话框中,选择需要分析的变量。这些变量可以来自同一个文件或不同的文件,可以是连续型变量或分类变量。 4. 选择相关系数方法:在相关性分析对话框中,选择需要使用的相关系数方法。可以使用皮尔逊相关系数、斯皮尔曼等级相关系数、切比雪夫距离等方法进行分析。 5. 进行分析:点击“确定”按钮,SPSS软件会自动进行相关性分析,并生成分析结果。可以将结果输出为表格或图形,便于解读和展示。 6. 解读结果:根据分析结果,解读变量之间的相关性关系。可以根据相关系数的大小和方向来判断变量之间的关系,例如正相关、负相关或无关。 7. 结论:根据分析结果,得出结论,回答研究问题。如果需要,可以提出建议和展望。 需要注意的是,SPSS相关性分析只是统计建模与分析中的一个小部分,还有很多其他统计方法和模型可以使用。因此,在进行分析时,需要根据具体研究问题和数据特点选择合适的方法和模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值