文章目录
一、变量
1.名义变量(分类变量) :名义
- 名义变量是一种用于区分不同组或类别的变量,其取值表示不同的类别或属性,但这些类别之间没有顺序或等级关系。
- 例如,性别(男、女)、民族(汉族、藏族、维吾尔族)等都属于名义变量。
2. 有序变量(等级变量): 有序
- 有序变量是一种具有顺序或等级关系的变量,其取值表示不同类别之间的顺序关系,但这些取值之间的间隔并没有固定的意义。
- 例如,教育程度(小学、初中、高中、大学)、日期属于有序变量。
3. 连续变量: 标度
- 连续变量是一种可以在一定范围内取任意值的变量,其取值可以是任意的实数值。连续变量通常用于表示度量或数量,可以进行数值运算和比较。
- 例如,身高、体重、温度等都属于连续变量。
4. 离散变量
- 离散变量是一种只能取有限个数值或一系列特定数值的变量,取值之间存在间隔,但不是连续的。
- 例如,家庭人数、学生人数、投掷骰子的点数等都属于离散变量。
5. 二元变量(二值变量)
- 二元变量是一种只能取两个取值之一的变量,通常用0和1表示。
- 例如,考试成绩是否及格(及格为1,不及格为0)等属于二元变量。
二、spss常用分析技术
1、描述统计
(1)偏度(Skewness)
- 它衡量的是数据分布的不对称性,即数据的偏态程度和方向。当数据分布左右对称时,偏度为0;若偏度大于0,则称为右偏或正偏,表示数据在均值右侧有较多的极端值;反之称为左偏或负偏,表示数据在均值的左侧有较多的极端值。在金融市场中,收益率的分布往往呈现出一定的偏度,通过对偏度的分析可以更好地理解市场的风险特性。
(2)峰度(Kurtosis)
- 它是研究数据分布陡峭或者平滑的统计量,反映的是频数分布曲线顶端的尖峭程度或者说峰值的高低。正态分布的峰度为3,如果一组数据的峰度高于3,那么其分布形态相较于正态分布就更加陡峭,说明数据中存在较多的大幅度偏离平均值的异常值;相反,如果峰度低于3,则说明分布相对平缓,异常值较少。金融市场中的高峰度通常意味着存在发生大幅波动的可能性,因此投资者需要对此保持警惕。
- 在统计学中,峰度和偏度是衡量数据分布形态的两个重要指标。
- 一般来说,如果数据的峰度接近3,偏度接近0,那么可以近似地将其看作是正态分布。
- 具体来说,峰度是描述数据分布陡峭或平坦程度的统计量,正态分布的峰度为3。如果某个数据集的峰度与3相差不大,说明该数据集的分布形态与正态分布相似。
- 偏度则是描述数据分布不对称性的统计量,正态分布的偏度为0。如果某个数据集的偏度接近0,说明该数据集没有明显的左偏或右偏,与正态分布的对称性相似。
- 当然,需要注意的是,仅仅依靠峰度和偏度来判断数据是否服从正态分布可能并不完全准确。在实际应用中,还需要结合其他统计方法和图形来进行综合判断。
2、比较平均值
(1)独立样本T检验(Independent Samples T-Test)
- 独立样本T检验用于比较两个独立样本(不同的样本)的均值是否存在显著差异。该检验假设两个样本是独立的,且数据服从正态分布。
- 独立样本T检验的零假设是两个样本的均值相等,备择假设是两个样本的均值不相等。通过计算T值和P值来判断是否拒绝零假设。(P值是显著性)
(2)成对样本T检验(Paired Samples T-Test)
- 成对样本T检验用于比较同一组样本在两个不同条件下的均值是否存在显著差异。这种检验适用于样本之间存在配对关系的情况。
- 成对样本T检验的零假设是两个条件下的均值没有显著差异,备择假设是两个条件下的均值存在显著差异。通过计算T值和P值来判断是否拒绝零假设。
(3)单因素ANOVA检验(One-Way Analysis of Variance)
- 单因素ANOVA检验用于比较三个或三个以上组别之间(一个变量分三类及以上)的均值是否存在显著差异。该检验假设各组别数据服从正态分布,且方差齐性成立。
- 单因素ANOVA检验的零假设是所有组别的均值相等,备择假设是至少有一组的均值与其他组不同。通过计算F值和P值来判断是否拒绝零假设。
这三种假设检验方法在实际研究中经常用于比较不同组别的均值差异,帮助研究者进行统计推断和决策。在进行假设检验时,需要注意数据的前提条件和假设是否成立,以确保结果的可靠性和有效性。
(4)存在显著差异说明什么?
解释 |
---|
在统计学中,当我们进行假设检验(如T检验、ANOVA检验等)时,如果得到的P值小于事先设定的显著性水平(通常为0.05),我们通常会得出结论“存在显著差异”(Significant Difference)。 |
具体来说,当我们得出“存在显著差异”的结论时,意味着我们有足够的统计证据来拒绝零假设,即我们有理由相信样本之间的差异不是由随机因素引起的,而是由于真实的总体差异导致的。这种差异可能是由于不同组别之间的实际差异,而不仅仅是由抽样误差引起的。 |
因此,当我们得出“存在显著差异”的结论时,我们可以合理地认为所研究的变量之间确实存在着一定的关联或差异,这种关联或差异不太可能是由随机因素引起的。这对于研究者来说是一个重要的发现,可以帮助他们做出相应的决策或推断。 |
需要注意的是,显著性水平(通常为0.05)是一种事先设定的标准,用于判断结果是否具有统计学意义。因此,“存在显著差异”并不意味着差异的大小或重要性,而仅仅表示我们有充分的理由相信样本之间的差异不是由随机因素引起的。 |
(5)怎么判断是否拒绝零假设,拒绝零假设又说明什么?
解释 |
---|
统计学中,我们使用假设检验来判断样本数据是否提供足够的证据来支持对总体参数的某种假设。在进行假设检验时,我们需要设定一个显著性水平(通常为0.05),用于判断是否拒绝零假设。 |
判断是否拒绝零假设的步骤如下:1. 设定假设: 我们首 |