目录
一、散点图
1.使用场景
散点图用于考察定量数据之间的关联关系,即查看X和Y之间的关系情况。 散点图通常用于探索性研究,直观展示出数据间的关联关系情况。
散点图的常见使用场景如下:
(1) 相关分析之前,查看X和Y之间的关系情况。
(2) 回归分析后模型检验,查看残差分别与自变量间的关联性【回归模型假定残差不应该与自变量有关联性,即异方差性】。
(3) 其它用于直观展示数据关系的场景。
2.SPSSAU操作如下图
3.SPSSAU中输出散点图说明
分析结果来源于SPSSAU
说明1
上图是回归分析保存的残差值与自变量作散点图,用于检测异方差性,上图可以看出,数据基本上没有规律可循,X变化时,Y并不会变大或者变小,因而说明无关联性,也即说明没有异方差性。
说明2
上图可以看出,X增大时,Y会明显的减少,也即说明X和Y之间有着负向相关关系。
说明3
上图区分不同性别群体时,X和Y的散点图。需要让性别放入“颜色区分项”框即可,可直观展示不同类别时,数据间的关系差异情况。
二、直方图
1.使用场景
正态分布图(也称高斯分布图)是由德国的数学家和天文学家Moivre于1733年首次提出。从理论上讲,生活中绝大多数数据均满足正态分布,比如身高,体重,人的智商等等数据。而且当前的多数研究方法均默认假定数据呈现出正态分布。直方图用于直观展示数据特征情况,观察数据的正态分布特性,检验数据是否满足分析方法的前提(正态性)。使用场景如下:
(1) 相关分析时,数据的正态性查看(如果正态,则使用Pearson相关系数,反之如果数据分布明显不正态,则使用Spearman相关系数);
(2) 回归分析后模型检验,将残差进行正态性检验,如果残差呈现出正态性意味着模型构建良好,反之说明模型构建较差。
(3) 方差分析前,定量数据Y的正态性查看(此方法使用较少),如果不满足正态性则使用非参数检验。
(4) 其它(理论上讲,t 检验,单样本t 检验,配对t 检验等研究方法,其前提条件是数据呈现出正态性,但在实际研究中几乎不会对数据作正态性检验,默认数据是正态性分布)
2.SPSSAU操作如下图
3.SPSSAU中输出直方图说明
说明1
上图是回归分析保存的残差值进行正态性检验,上图可以看出,数据基本上满足正态性,几个柱子的分布基本上可以用一个钟形的正态曲线描绘,数据基本满足正态分布性。
说明2
上图可以看出,数据离正态性较差,柱子的轮廓也有一定的钟形特征,但并不完美,如果数据量较少或要求不高,也基本上可以接受这样的正态性特质。
说明3
上图可以看出,数据明显偏差正态性,柱子轮廓完全不具有“钟形”即正态性特质,数据完全不符合正态分布。
三、箱线图
1.使用场景
箱线图(也称盒图,箱盒图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱线图,可以直观的探索数据特征。箱线图使用场景如下:
(1) 查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);
(2) 非参数检验时查看不同类别X时,Y的数据分布情况;
(3) 其它涉及查看数据分布或者异常值查看时。
2.用途
(1)直观地识别数据中异常值(离群点);
(2)直观地判断数据离散分布情况,了解数据分布状态。
3.SPSSAU操作如下图
4.计算
箱线图共由五个数值点构成,分别是最小观察值,25%分位数(Q1),中位数,75%分位数(Q3),最大观察值。需要特别说明的是,最小观察值和最大观察值定义如下
(1) 最小观察值 = Q1 – 1.5(IQR), IQR = Q3 –Q1
(2) 最大观察值 = Q3 + 1.5(IQR), IQR = Q3 –Q1
5.SPSSAU中输出箱线图说明
说明1
上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充(SPSSAU异常值功能),或者在分析时进行过滤。
说明2
上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。
四、词云
1.使用场景
词云图(也称云图)是由美国西北大学新闻学教授Rich Gordon提出,“词云”可对文字中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而使浏览者只要一眼扫过文本就可以领略文本的主旨。
2.SPSSAU操作如下图
3.SPSSAU中输出词云说明
说明
上图中直观展示出房价热度的情况,“深圳”字体最大最明显,直观展示出此信息。
PS:SPSSAU提示:如果数据中已经明确好权重,比如房价热度信息分为两列,一列是城市,另外一列是热度指数(即权重加权项)。相当于“热度指数”是权重,可直接拖放到“加权项”处,得到加权的词云图如下。
五、误差线图
1.使用场景
误差线图用于展示数据的不确定性程度,显示潜在的误差或每个数据标志的不确定程度。样本数据的波动是通过标准差体现,因而样本均值不确定性程度为标准差。如果希望体现数据抽样误差,此时应该使用标准误。
SPSSAU共提供标准差和标准误两类误差项(默认标准差)供选择使用,通常是使用标准差,展示均值的偏离程度。
2.SPSSAU操作如下图
3.SPSSAU中输出误差线图说明
上图展示不同性别的婴儿体重情况,柱子代表平均值(分别是7.588和7.671),并且使用标准差直观展示均值的波动情况,可以看出,无论男女,婴儿的体重波动基本均在1斤左右。