第三节 数据预处理、基本参数检验
数据预处理
数据预处理是检验样本数据质量最初的步骤。并且在检验完成后将数据处理成可直接分析的形式。在检验方式上主要分为主观判断法和客观检验法。
1、主观法:现在的数据基本都是通过线上采集的方式进行收集。线上采集的数据都会有填写市场,因此可以通过填写时长初步筛选合适的样本。
2、检验法:可通过spss分析功能中的箱线图检测变量的异常值或极端值,在此基础上根据实际情况判断数据是否合适。“*”代表极端值,“。”代表异常值。
单样本t检验
假设检验的流程
提出假设:选择研究问题提出假设:原假设(H0)和备用假设(H1)
选择方法:根据数据特点选择合适的检验方法,构建致信区间和拒绝域
显著性判断:最终检验结构的判断有两种方式,临界值法和概率p值。
临界值法:主要看通过样本数据计算的临界值(t,F,卡方等)落在哪一个区域判断结果是否显著。
概率p值:直接计算的是原假设发生的概率。
(按照95%的置信区间水平,临界值的最低要求是1.96,概率p值计算结果小于0.05即可认为检验结果显著,也就是原假设不成立。)
单样本t检验
原理:单样本t检验用来检验单个变量的均值和给定值(检验值)之间是否存在显著的差异
要求:单样本t检验要求样本来自正态分布总体,或者近似正态分布。
案例:通过抽样调查的方式在某地区随机调查了320名公务员,现通过量表的测量了样本群体的职业幸福感水平。已知总体的就业幸福感水平为3.64.要求采用合适的统计学分析方法分析该地区公务员和总体职业幸福感是否一致。
分析流程:
1.构建假设:
原假设:H0:M1=M2或M1-M2=0(M1为样本均值,M2为检验值)
备择假设:H1:M1≠M2或M1-M2≠0
2.选择分析方法进行检验:
在检验的思想上,都是先默认原假设H0是成立的,案后在此基础上构建置信区间和拒绝域,并最终通过所选择公式的计算结果判断原假设是否真实成立,判断方法为观察临界值或者概率p值得结果进行判断。
独立样本t检验
原理:两独立样本t检验用来检验两个样本是否来自两个均值相等的总体,反过来说就是检验两个总体均值是否有差异。
要求:
1、两个独立样本均来自正态分布的总体,或者近似正态。
2、两个独立样本总体具有同方差。
案例:
通过抽样调查的方式在xxx地区随机调查了320名公务员,现通过量表的测量了样本群体的职业幸福感水平。现要求采用合适的分析方法分析出xxx地区男性公务员和女性公务员在职业幸福感上的水平是否一致。
分析流程:
1.构建假设:
原假设:H0:M1=M2或M1-M2=0(M1为男性样本均值,M2为女性样本均值)
备择假设:H1:M1≠M2或M1-M2≠0。
2、选择分析方法进行检验:
在检验的思想上,都是先默认原假设H0是成立的,然后在此基础上构建置信区间和拒绝域,并最终通过所选择公式的计算结果判断原假设是否真实成立,判断方法为观察临界值或者概率p值得结果进行判断。
配对样本t检验
原理:用来检验两个相关样本是否来自均值相等的总体。
样本特点:
1、自身配对:同一个个体前后两次收集的数据。
2、同源配对:具有相同特征的个体进行配对,比如,性别、年龄、体重都相等的两个个体配对。
要求:两个相关样本均来自正态分布的总体,或者近似正态