可视化图形集合(一)

191 篇文章 31 订阅
161 篇文章 21 订阅

目录

一、散点图

二、直方图

三、箱线图

四、词云

五、误差线图


一、散点图

1.使用场景

散点图用于考察定量数据之间的关联关系,即查看X和Y之间的关系情况。 散点图通常用于探索性研究,直观展示出数据间的关联关系情况。

散点图的常见使用场景如下:

(1) 相关分析之前,查看X和Y之间的关系情况。

(2) 回归分析后模型检验,查看残差分别与自变量间的关联性【回归模型假定残差不应该与自变量有关联性,即异方差性】。

(3) 其它用于直观展示数据关系的场景。

2.SPSSAU操作如下图

3.SPSSAU中输出散点图说明

分析结果来源于SPSSAU

说明1

上图是回归分析保存的残差值与自变量作散点图,用于检测异方差性,上图可以看出,数据基本上没有规律可循,X变化时,Y并不会变大或者变小,因而说明无关联性,也即说明没有异方差性。

说明2

上图可以看出,X增大时,Y会明显的减少,也即说明X和Y之间有着负向相关关系。

说明3

上图区分不同性别群体时,X和Y的散点图。需要让性别放入“颜色区分项”框即可,可直观展示不同类别时,数据间的关系差异情况。

二、直方图

1.使用场景

正态分布图(也称高斯分布图)是由德国的数学家和天文学家Moivre于1733年首次提出。从理论上讲,生活中绝大多数数据均满足正态分布,比如身高,体重,人的智商等等数据。而且当前的多数研究方法均默认假定数据呈现出正态分布。直方图用于直观展示数据特征情况,观察数据的正态分布特性,检验数据是否满足分析方法的前提(正态性)。使用场景如下:

(1) 相关分析时,数据的正态性查看(如果正态,则使用Pearson相关系数,反之如果数据分布明显不正态,则使用Spearman相关系数);

(2) 回归分析后模型检验,将残差进行正态性检验,如果残差呈现出正态性意味着模型构建良好,反之说明模型构建较差。

(3) 方差分析前,定量数据Y的正态性查看(此方法使用较少),如果不满足正态性则使用非参数检验。

(4) 其它(理论上讲,t 检验,单样本t 检验,配对t 检验等研究方法,其前提条件是数据呈现出正态性,但在实际研究中几乎不会对数据作正态性检验,默认数据是正态性分布)

2.SPSSAU操作如下图

3.SPSSAU中输出直方图说明

说明1

上图是回归分析保存的残差值进行正态性检验,上图可以看出,数据基本上满足正态性,几个柱子的分布基本上可以用一个钟形的正态曲线描绘,数据基本满足正态分布性。

说明2

上图可以看出,数据离正态性较差,柱子的轮廓也有一定的钟形特征,但并不完美,如果数据量较少或要求不高,也基本上可以接受这样的正态性特质。

说明3

上图可以看出,数据明显偏差正态性,柱子轮廓完全不具有“钟形”即正态性特质,数据完全不符合正态分布。

三、箱线图

1.使用场景

箱线图(也称盒图,箱盒图等)是在1977年由美国统计学家John Tukey发明,分析数据需要为定量数据。通过箱线图,可以直观的探索数据特征。箱线图使用场景如下:

(1) 查看可能的异常值数据情况(比如在回归分析前查看是否有异常数据);

(2) 非参数检验时查看不同类别X时,Y的数据分布情况;

(3) 其它涉及查看数据分布或者异常值查看时。

2.用途

(1)直观地识别数据中异常值(离群点);

(2)直观地判断数据离散分布情况,了解数据分布状态。

3.SPSSAU操作如下图

4.计算

箱线图共由五个数值点构成,分别是最小观察值,25%分位数(Q1),中位数,75%分位数(Q3),最大观察值。需要特别说明的是,最小观察值和最大观察值定义如下

(1) 最小观察值 = Q1 – 1.5(IQR), IQR = Q3 –Q1

(2) 最大观察值 = Q3 + 1.5(IQR), IQR = Q3 –Q1

5.SPSSAU中输出箱线图说明

说明1

上图中直观展示出C2时共有2个异常值点,如果对C2进行分析,且分析方法对异常值敏感时(比如相关分析,回归分析等),此时需要对该2个异常值点进行处理成null或者填充(SPSSAU异常值功能),或者在分析时进行过滤。

说明2

上图可以看出,在男性时,C1中有2个异常点;女性时,C1共出现1个异常点。移动到异常点时会显示具体数据。此时如果有需要,可将此3个异常值进行处理,或者在分析时过滤掉异常值。

四、词云

1.使用场景

词云图(也称云图)是由美国西北大学新闻学教授Rich Gordon提出,“词云”可对文字中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”或“关键词渲染”,从而使浏览者只要一眼扫过文本就可以领略文本的主旨。

2.SPSSAU操作如下图

3.SPSSAU中输出词云说明

说明

上图中直观展示出房价热度的情况,“深圳”字体最大最明显,直观展示出此信息。

PS:SPSSAU提示:如果数据中已经明确好权重,比如房价热度信息分为两列,一列是城市,另外一列是热度指数(即权重加权项)。相当于“热度指数”是权重,可直接拖放到“加权项”处,得到加权的词云图如下。

五、误差线图

1.使用场景

误差线图用于展示数据的不确定性程度,显示潜在的误差或每个数据标志的不确定程度。样本数据的波动是通过标准差体现,因而样本均值不确定性程度为标准差。如果希望体现数据抽样误差,此时应该使用标准误。

SPSSAU共提供标准差和标准误两类误差项(默认标准差)供选择使用,通常是使用标准差,展示均值的偏离程度。

2.SPSSAU操作如下图

3.SPSSAU中输出误差线图说明

上图展示不同性别的婴儿体重情况,柱子代表平均值(分别是7.588和7.671),并且使用标准差直观展示均值的波动情况,可以看出,无论男女,婴儿的体重波动基本均在1斤左右。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值