可视化图形原理

可视化图形原理

按照具体取值形式的不同,数值变量可以分为离散变量和连续变量。

如果离散变量只有少数几个可能的取值,那么对这样的离散数据可以采取与类别数据类似的方法制作频数分布表,即分别统计一组数据中每一个取值出现的次数和所占的百分比。

大多数情况下,离散变量的可能取值往往较多,而连续变量是在区间范围内取值,均不适合一一列举。因此,对数值数据进行描述分析,通常需要先分组,再制作频数分布表。

图形的构成

图的构成要素

图表区(画图)

网格线

绘图区

轴标题

坐标轴

图表标题(title)

数据标签

图例

误差线

趋势线

涨\跌柱线

类别数据的图形展示

条形图(柱状图)

用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定不变的。条形图的矩形是分开排列。主要展示分类数据。

条形图的用途最广泛,它是最为简洁明了的基本图形。条形图用于二维数据之间的对比,利用条形的长短对比不同数据的差异。对于所有的中小规模数据集,条形图都工作得非常好;

在这里插入图片描述

复式条形图

还可以根据分析需要将上述两个类别变量绘制在同一个条形图中进行交叉比较,这就是复式条形图。

在这里插入图片描述

百分比堆积图

在这里插入图片描述

饼图

是将一个圆划分成多个扇形,用每个扇形的面积(即角度)大小代表不同类别的频数在总频数中所占的百分比。它主要用于表示一个样本(或总体)中各组成部分的数据占据全部数据比例,对于研究结构性问题十分有用。

饼图不是一种好操纵的图形,饼图最明显的两个局限在于它不能同时展示过多的数据类,也容易缩小不同类别的差距。使用饼图时的通常做法是将一个整圆切割为几个扇形,每个扇形代表一类数据,通过对不同扇形面积的比较来判断不同数据的差异。与条形图不同,人类很难区分出饼图中的细微差异,因此将一个饼图划分为过多的小扇形是没有意义的,同一个饼图中最多不要超过5个扇形。

在这里插入图片描述

环形图

环形图是将两个或两个以上的饼图叠放在一起,然后“挖去”中间的部分所构成的图形。

环形图中用每一个环形代表不同的样本,同一个样本(同一个环)的不同构成部分则用环上的不同分段来表示。环形图与饼图的基本功能类似,但如果需要同时对比多个样本数据的构成结构,环形图将更为直观和简洁。

在这里插入图片描述

数值数据的图表展示

分组是将变量的所有取值划分为若干个区间,每一个区间作为一组,区间的最小值称为组下限,最大值称为组上限。分组应遵循“不重不漏”的基本原则,也就是不同区间的划分应该使得所有的数据都能够并且只能够被归属到某一个区间内。数值数据的分组步骤如下:

  • 首先,确定组数。一般情况下,一组数据所分的组数应不少于5组且不多于15组。实际应用时,可根据数据的多少和特点及研究目的来确定。计算组数的公式:组数=1+lgN/lg2
  • 其次,确定各组的组距。组距是每一组的区间范围,即组上限与组下限的差值。如果每一组的组距都相等,称为等距分组,否则为不等距分组。等距分组是最常见的分组方式,组距可根据全部数据的最大值和最小值及所分的组数来确定,计算公式为:组距=(最大值-最小值)÷组数

直方图

用于展示分组数据分布的一种图形,它是用矩形的宽度和高度(即面积)来表示频数分布的。用横轴表示数据分组(宽度表示各组的组距),纵轴(高度)表示频数或频率。宽度和高度均有意义。由于分组数据具有连续性,直方图的各矩形通常是连续排列。主要展示数值型数据。

在这里插入图片描述

注意:直方图和条形图外观近似,但实际上其性质和功能完全不同。

条形图主要用于描述类别数据的频数分布,通常用矩形代表不同的类别,因此其宽度并没有实际意义,在绘制条形图时不同类别的矩形往往是分开排列的。而直方图则主要适用于描述数值数据的频数分布,矩形的宽度代表的是分组后各组的组距,有实际的数值含义,因此绘制直方图时各个矩形必然是连续排列的。

箱线图(盒须图)

又称为盒须图、盒式图。是由一组数据的最大值(max),最小值(min),中位数(median),两个四分位数(quartiles)这五个特征值绘制而成的,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较,用于连续型数据,查找异常值。

首先,找出一组数据的三个四分位数,画出箱子。上、下四分位数构成封闭箱子的边界,中位数位于箱子内部。

然后,计算出内围栏和相邻值,画出须线。内围栏是分别低于下四分位数和高于上四分位数1.5倍四分位差的两个值,取值位于上下内围栏之间的数据的最大值和最小值(即非离群点的最大值和最小值)称为上、下相邻值,用直线将上下相邻值分别与箱子连接,形成须线。

最后,标出离群点。离群点是大于上内围栏或小于下内围栏的数值。

在这里插入图片描述

箱线图既可以用于观察未分组数据的分布形态和离散程度,还可以用于识别异常值。此外,箱线图的另一个重要用途是可以针对多个数值变量的多组数据,方便地比较其分布特征。

散点图

是用于展示两个数值变量之间关系的一种常用图形。用二维坐标展示两个变量之间关系的一种图形。它是用坐标横轴代表变量x,纵坐标代表变量y,每组数据(x,y)在坐标系中用一个点表示。

散点图既可以用于对比二维数据,也可以用于对比三维数据。散点图注重多个维度之间的比较,如果拿不准数据集是否适合做回归分析,散点图可以帮助数据分析师看清数据的分布趋势。在聚类分析中,散点图同样能够帮助数据分析师直观了解不同类别的差别;

在这里插入图片描述

气泡图

可用于展示三个变量之间的关系,与散点图类似,绘制时将一个变量放在横轴,另一个变量放在纵轴,而第三个变量则用气泡的大小来表示。

气泡图是散点图的升级版,它不但能够在三维空间里体现出数据的分布,还可以通过气泡的大小体现不同数据的重要度。还可以通过气泡的颜色体现数据的类别。例如,在词频分析中,一个单词出现的次数越多,这个单词就越大,这就是一种气泡图的经典变形。

在这里插入图片描述

雷达图

是从一个点出发,用不同方向的射线分别代表不同的变量,将同一个样本各个变量的取值落在射线上的点连接成一个“蜘蛛网”,多个样本则形成多个“蜘蛛网”。

是显示多个变量的常用图示方法。利用雷达图也可以研究多个样本之间的相似程度。

它可以同时比较5维左右的数据,但不能超过6维。此外,雷达图也不能比较太多的数据。这种局限性使得雷达图的用处十分有限,但对于适合使用雷达图展示的数据来说,雷达图能最大限度地展示数据信息。

在这里插入图片描述

折线图

如果数值型数据是在不同时间上取得的,及时间序列数据,则可以绘制线图。主要用于反映现象随时间变化的特征。绘制线图时,时间一般绘在横轴,观测值绘在纵轴。

折线图同样用于对比二维数据,与条形图不同,它展示的重点不是不同数据的差异,而是数据整体的趋势走向,因此在所有涉及时间的数据都会运用折线图,对于金融数据来说,尤其是这样。

在这里插入图片描述

截面数据:相同时间,不同地点产生的数据;

时间序列:和时间相关产生的数据;

图表的合理使用

从一般性而言,图表的最大优势就是直观、形象。既要有助于引导读者理解数据,又要避免造成错误的印象,绘制图表时应注意以下几点:

第一,正确理解不同图表的用途,合理选择适用的图表。

第二,真实展示数据特征,合理安排图表结构。

第三,遵循图表制作规范。

如何鉴别图形

一张好的图形应具有的基本特征:

  1. 显示数据
  2. 让读者把注意力集中在图形的内容上,而不是制作图形的程序上
  3. 避免歪曲
  4. 强调数据之间的比较
  5. 服务于一个明确的目的
  6. 有对图形的统计描述和文字说明

鉴别图形优劣的五条准则:

  1. 一张好的图形应当精心设计,有助于洞察问题的实质
  2. 一张好的图形应当使复杂的观点得到简明、确切、高效的阐述
  3. 一张好的图形应当在最短的时间内以最少的笔墨给读者提供最大量的信息
  4. 一张好图应当是多维的
  5. 一张好图应当表述数据的真实情况

从入门到精通:如何用图表做好数据分析?

知乎:https://www.zhihu.com/question/40903517/answer/130611180

数据图表制作的4个基本要素

可读性

精准性

客观性

统一性

从入门到精通:如何用图表做好数据分析?

知乎:https://www.zhihu.com/question/40903517/answer/130611180

数据图表制作的4个基本要素

可读性

精准性

客观性

统一性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值