变量计算
1.派生新变量
2.变换数据的原有分布
数据分析和建模中某些模型对数据的分布有一定的要求,因此可以利用变量计算对原有数据的分布进行变换。例如,对非正态变量的对数处理;对时间序列进行平稳化处理;利用区间变换压缩数据取值范围和进行标准化处理等。
变量计算过程中涉及几个概念:
第一,SPSS算数表达式;第二,SPSS条件表达式;第三,SPSS函数。
数据选取
1.按制定条件选取;2.随机选取,又分为近似选取(百分比)和精确选取(具体数);3.选取某一个区域的样本(给出上下限)4.通过筛选器变量选取(通常用于排除系统缺失值的个案)
计数
1.指定哪些变量参与计数,计数的结果存入哪个新变量中;
2.指定计数区间。
分类汇总
组距分组
分组数目的确定 K = 1+lnn/ln2,n为数据个数,对结果四舍五入取整后为理论分组数目。
组距的确定 组距是一个组的上限与下限之差,组距可根据全部数据的最大值,最小值及组数决定,即组距=(最大值-最小值)/组数
数据预处理的其他功能
1.转置;2.加权;3.拆分。