SPSSPRO数据处理的通用方法介绍(上)

1 数据标签和数据编码

对定类变量进行数据编码,可以浓缩或整合原始数据,有助于提高数据的安全性和传输效率。

2 异常值处理

可检测与处理变量数据中包含的异常值,异常值检测逻辑是对变量的数据集(类似于列)按照设置的阈值进行判定,筛选出落在异常值检测范围内的数据,再根据处置方法将原数据替换。

2.1 MAD异常值识别

MAD(Mean Absolute Deviation)指的是平均绝对偏差,假定数据服从正态分布,让异常点(outliers)落在两侧的50%的面积里,让正常值落在中间的50%的区域里。

2.2 IQR异常值识别

四分位距(Interquartile Range, IQR)是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过(上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离)的点为异常值。

2.3 3sigma异常值识别

当数据服从正态分布时,±3∂的概率是99.7%,则距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

3 无效样本处理

检查与剔除无效样本,个案实际就是单个样本,一个样本由有限个变量的数据集组成,个案处理是对众多样本的变量数据集进行校验检测,筛除无效样本(含重复),是对行的标记处理。

4 生成变量

根据研究需要可以在原始变量基础上根据公式生成新的变量用以深入分析,例如生成平均值、求和、Z标准化、中心化等。

5 数据标准化

通过一些处理使得数据去量纲化,使得来自不同量纲或不同数量级的数据能够进行比较和分析。方法包括min-max标准化、z-score标准化、归一化、中心化等。

6 虚拟变量转换

用于一些分类、回归算法的变量生成方法,变换方法包括哑变量化和独热编码。

6.1 哑变量化

⚪作用:对离散特征编码,具有k(去重变量数)-1个二进制特征
⚪适用场景:哑变量化会减少统计建模的自由度(df)参数,其体现为把某一个分类型变量各个值对应的权重都增加某一数值,同时把另一个分类型变量各个值对应的权重都减小某一数值,而模型不变,一般应用在不使用正则化的回归/分类模型。

6.2 独热编码

⚪作用:对离散特征编码,具有k(去重变量数)个二进制特征
⚪适用场景:独热编码会每个分类型变量的各个值的地位就是对等的,一般应用在使用正则化的回归/分类模型。

7 缺失值处理

对缺失值进行识别与填充处理
⚪缺失值类型:空值、空格、字符串“None”
⚪处理方式:剔除标记、填充
⚪填充规则:统计量填充、规则填充、插值填充、模型填充

7.1 统计量填充

均值
中位数
众数
三倍标准差
负三倍标准差

7.2 规则填充

纵向用缺失值上面的值替换缺失值
纵向用缺失值下面的值替换缺失值
若某行全为缺失值
剔除所在行
固定值M填充

7.3 插值填充

Nearest最近点数值填充
Zero零阶插值填充
Linear线性插值填充
Quadratic二次插值填充
Cubic三次插值填充

7.4 模型填充

最小二乘填充
贝叶斯填充
决策树填充
K近邻填充

  • 13
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

这辈子都不想编程

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值