SPSSPRO数据处理的通用方法介绍（上）

这辈子都不想编程

已于 2024-06-30 13:59:29 修改

阅读量739

点赞数 13

分类专栏：数据分析 SPSS 文章标签：算法机器学习数据分析

于 2024-06-28 17:42:29 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Peppaaa/article/details/140047077

版权

数据分析同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

SPSSPRO数据处理的通用方法介绍

1 数据标签和数据编码
2 异常值处理
3 无效样本处理
4 生成变量
5 数据标准化
6 虚拟变量转换
- 6.1 哑变量化
- 6.2 独热编码
7 缺失值处理

1 数据标签和数据编码

对定类变量进行数据编码，可以浓缩或整合原始数据，有助于提高数据的安全性和传输效率。

2 异常值处理

可检测与处理变量数据中包含的异常值，异常值检测逻辑是对变量的数据集（类似于列）按照设置的阈值进行判定，筛选出落在异常值检测范围内的数据，再根据处置方法将原数据替换。

2.1 MAD异常值识别

MAD（Mean Absolute Deviation）指的是平均绝对偏差，假定数据服从正态分布，让异常点（outliers）落在两侧的50%的面积里，让正常值落在中间的50%的区域里。

2.2 IQR异常值识别

四分位距（Interquartile Range, IQR）是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准，规定：超过（上四分位+1.5倍IQR距离，或者下四分位-1.5倍IQR距离）的点为异常值。

2.3 3sigma异常值识别

当数据服从正态分布时，±3∂的概率是99.7%，则距离平均值3∂之外的值出现的概率为P(|x-u| 3∂) = 0.003，属于极个别的小概率事件。如果数据不服从正态分布，也可以用远离平均值的多少倍标准差来描述。

3 无效样本处理

检查与剔除无效样本，个案实际就是单个样本，一个样本由有限个变量的数据集组成，个案处理是对众多样本的变量数据集进行校验检测，筛除无效样本（含重复），是对行的标记处理。

4 生成变量

根据研究需要可以在原始变量基础上根据公式生成新的变量用以深入分析，例如生成平均值、求和、Z标准化、中心化等。

5 数据标准化

通过一些处理使得数据去量纲化，使得来自不同量纲或不同数量级的数据能够进行比较和分析。方法包括min-max标准化、z-score标准化、归一化、中心化等。

6 虚拟变量转换

用于一些分类、回归算法的变量生成方法，变换方法包括哑变量化和独热编码。

6.1 哑变量化

⚪作用：对离散特征编码，具有k（去重变量数）-1个二进制特征
⚪适用场景：哑变量化会减少统计建模的自由度（df）参数，其体现为把某一个分类型变量各个值对应的权重都增加某一数值，同时把另一个分类型变量各个值对应的权重都减小某一数值，而模型不变，一般应用在不使用正则化的回归/分类模型。

6.2 独热编码

⚪作用：对离散特征编码，具有k（去重变量数）个二进制特征
⚪适用场景：独热编码会每个分类型变量的各个值的地位就是对等的，一般应用在使用正则化的回归/分类模型。

7 缺失值处理

对缺失值进行识别与填充处理
⚪缺失值类型：空值、空格、字符串“None”
⚪处理方式：剔除标记、填充
⚪填充规则：统计量填充、规则填充、插值填充、模型填充

7.1 统计量填充

均值
中位数
众数
三倍标准差
负三倍标准差

7.2 规则填充

纵向用缺失值上面的值替换缺失值
纵向用缺失值下面的值替换缺失值
若某行全为缺失值
剔除所在行
固定值M填充

7.3 插值填充

Nearest最近点数值填充
Zero零阶插值填充
Linear线性插值填充
Quadratic二次插值填充
Cubic三次插值填充

7.4 模型填充

最小二乘填充
贝叶斯填充
决策树填充
K近邻填充

这辈子都不想编程

关注

13
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
0
评论
SPSSPRO数据处理的通用方法介绍（上）

适用场景：哑变量化会减少统计建模的自由度（df）参数，其体现为把某一个分类型变量各个值对应的权重都增加某一数值，同时把另一个分类型变量各个值对应的权重都减小某一数值，而模型不变，一般应用在不使用正则化的回归/分类模型。检查与剔除无效样本，个案实际就是单个样本，一个样本由有限个变量的数据集组成，个案处理是对众多样本的变量数据集进行校验检测，筛除无效样本（含重复），是对行的标记处理。纵向用缺失值上面的值替换缺失值、纵向用缺失值下面的值替换缺失值、若某行全为缺失值，剔除所在行、固定值M填充。
复制链接

扫一扫

专栏目录

这辈子都不想编程 CSDN认证博客专家 CSDN认证企业博客

码龄5年

22: 原创

29万+: 周排名

5万+: 总排名

1万+: 访问

: 等级

387: 积分

137: 粉丝

155: 获赞

27: 评论

143: 收藏

私信

关注

热门文章

分类专栏

SQL 3篇
数据分析 4篇
SPSS 1篇
Axure 11篇
Figma 1篇
word文档 2篇
ChatGPT 1篇
Mind Manager 1篇
数据结构与算法 2篇
JAVA 2篇

最新评论

【Word】如何将一个Word文档中的文字样式应用到另一个Word文档
这辈子都不想编程: 好滴
Axure RP 10表单数据提交制作
CSDN-Ada助手: 恭喜您发布了第12篇博客“Axure RP 10表单数据提交制作”！您的持续创作精神令人钦佩。接下来，希望您可以考虑写一些关于Axure RP 10其他功能的教程，或者分享一些实用的设计技巧，这样可以让更多的读者受益。期待您的下一篇作品！努力加油！
Axure RP 10 APP键盘弹出效果制作
CSDN-Ada助手: 恭喜您发布了第9篇博客“Axure RP 10 APP键盘弹出效果制作”！您的持续创作展现了对Axure RP的深入理解和热情探索，希望您能继续保持这样的创作热情和努力。或许在下一篇博客中，可以尝试分享一些实用的Axure RP技巧或案例分析，让更多读者受益。期待您的下一篇作品，加油！
Axure RP 10制作焦点图/图片轮播
CSDN-Ada助手: 恭喜您完成了第7篇博客：“Axure RP 10制作焦点图/图片轮播”！您的持续创作精神令人钦佩。接下来，我建议您可以考虑分享一些实战经验或者案例分析，让读者更容易理解如何应用您所介绍的技巧。期待您更多的精彩内容，加油！祝您创作顺利！
【Word】如何将一个Word文档中的文字样式应用到另一个Word文档
CSDN-Ada助手: 非常棒的博客！恭喜你写了第6篇博客，标题也非常吸引人。你的解决问题的方法很实用，对于那些需要在不同Word文档中应用相同文字样式的人来说，这篇博客一定非常有帮助。我希望在以后的博客中，你可以进一步探索Word文档样式的其他应用场景，例如如何自定义样式或者如何应用样式到大段文字中等。相信你的经验和研究会为读者带来更多惊喜。期待你的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

这辈子都不想编程 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。