SAS DM数据准备读书笔记8(探索性数据分析)

(1)探索性数据分析(Exploratory Data Analysis, EDA)是统计分析和数据挖掘的一个重要前置步骤,很多统计软件都提供这个功能。但是,要探索什么?如何探索是本节主要讨论的内容,本节讨论的内容仅仅是探索数据分析的一小部分。JMP就是一个非常强大的数据探索工具,当然它的功能不仅限于此。

(2)探索性数据分析之前需要对数据做些转换,使数据的结构更适合分析,或者更适合发现数据之间的特征关系。比如之前讨论的行列转置。

(3)EDA由Turkey(1977)提出,主要内容包括:描述统计分析,检验变量分布及正态性检验,计算变量间相关系数,检测异常值,探索变量的非线性关系,检测缺失值,检验样本与总体的关系,检测频数关系表,使用多元统计方法探索变量间的线性结构关系。

(4)Proc Means, Proc Univariate都可以提供描述统计的功能,Proc means运算效率较高,但提供的统计功能较少。

(5)异常值发现

通常认为大于或者小于均值3个标准差的数据,即为异常数据。可以通过以下方式:

proc univriate来计算过滤条件大于均值+3标准差的观察记录;

也可以使用proc robustreg,详细用法可以参考UCLA IDRE 或者SAS SUGI 的文章。当分析数据被许多异常值污染的时候,PROC ROBUSTREG常用于取代最小二乘回归,因此它也常用于检测异常值。

也可以使用聚类方法PROC FASTCLUS。K-MEANS对异常值很敏感。

(6)正态性检验 PROC UNIVARIATE data=DSin normal;

(7)交叉表分析 PROC TABULATE或者 PROC FREQ

(8)线性结构分析 主成分或者因子分析

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值