基本统计量
1.均值
2.标准差
3.方差
4.最小值、最大值、总和
5.全矩(Range)
全距也称为极差,是数据的最大值与最小值之间的绝对差。全距是刻画某变量所有取值离散程度的另一个统计量。在相同样本容量的情况下的两组数据,全距大的一组数据要比全距小的一组数据更分散。当全距非常小时,则意味着数据基本都集中在一起。
6.峰度(Kurtosis)
人们一般对数据的正态分布形态比较熟悉,因此在刻画一变量取值的分布形态时,通常与正态分布相比较。
分布形态可以从数据分布的陡缓程度方面来描述。峰度就是描述某变量所有取值分布形态陡缓程度的统计量。
在SPSS中,与正态分布相比,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更陡峭,为尖顶峰
;峰度小于0表示比正态分布的高峰要平坦,为平顶峰
。
7.偏度(Skcwness)
偏度也是用来刻画数据分布形态的,它是描述某变量所有取值分布形态的对称性的统计量。
在SPSS中,与正态分布相比,偏度为0表示其形态分布偏度相同,左右对称;偏度大于0表示正偏差数值较大,为正偏或称右偏,有一条长尾拖在右边;偏度小于0表示负偏差数值较大,为负偏或称左偏,有一条长尾拖在左边。偏度的绝对值越大表示数据的分布形态的偏斜程度就越大。
8.均值标准误差(Standard Error of Mean)
由于抽样等原因,使得样本数据不一定能够完全准确地反映总体,可能与总体的真实值之前存在一定的差异。
进行若干次抽样,会得到若干个不同的样本均值,它们与总体均值之间夜存在不同的差异,均值标准误差就是描述这些样本均值与总体均值之间平均差异程度的统计量。
计算基本统计量的操作步骤
基础计算
菜单:Statistics→Summarize→Descriptives
选择参与计算的数值型变量的变量名到变量框
这里选择了前三个变量,在输出窗口就会自动显示计算结果,下面计算了三个变量506个个案的最大最小值、均值和标准差
其他菜单选项
1.标准化处理
勾选“将标准化值另存为新变量”,标准化后的新变量均值为0,标准差为1
在原数据编辑窗口后会生成上面选择的三个变量的标准化值
2.Option选项
可以选择计算哪些描述统计量
这里选择了均值、标准差、峰度和偏度,如果不考虑实际情况,仅仅从结果来看,数据分布呈右偏、尖顶峰形态
分组计算描述变量
可以利用拆分文件对某个变量进行分组,比如性别,分成男、女进行统计
菜单:数据→拆分文件
选择“比较组”,表示将各分组计算的结果输出在一张表格中,“按组来组织输出”表示将结果输出在不同的表格中
注意:拆分后对以后的SPSS分析处理均起作用,以后无论进行什么分析都是按拆分变量的不同组分别进行,因此要恢复到对所有数据的总体分析操作,需要选择“分析所有个案:不创建组”
变量的频数统计
变量频数的描述方法
1.频数、百分比
百分比又包括有效百分比(有缺失值存在)、累计百分比
2.分位值
分位值是一种常用的反映变量取值分布状况的统计量,分位值给出了频数统计变量在个案的不同百分位点上的取值,从另一个侧面清楚刻画了频数统计变量的取值分布状态。分位值能够表明数据的离散程度。不同分位值之间的差距越大,表示个案在此比例分布段上的离散程度越大。
一般情况下分位值使用四分位点,即:上四分位数(75%),中位数(50%)和下四分位数(25%)
此外,SPSS中有两种自行定义分位点的方式:一种是:用户直接指定分位点数,如:指定 30 为一个分位点。另一种是:用户指定将100%等分为n份。例如:如果给出5,则表示要将 100%等分为5份,那么就意味要计算 20%40%60%80% 分位点的分位值。
3.统计图形
常用统计图形:条形图、直方图等
变量频数统计的基本操作步骤
菜单:Statistics - >Summarize - >Frequencies
选择需要进行频数分析的频数统计量到右框
统计结果
不同的变量会有不同的频率表
其他菜单选项
1.统计选项
选择四分位数、均值、总和等
在统计表中会计算选择的统计量
2.图表选项
从偏度和峰度的数据我们可以分析出两个变量的图像都是右偏,CHAS的形态为尖顶峰,RAD的形态为平顶峰,和下面绘制出的图像是相符合
3.格式选项