数据科学学习笔记5 --- 数据可视化

------------------------------------------------------------------------------

可视化概述

1. 什么是数据可视化

· 数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程

· 数据可视化技术的基本思想是将数据库中的每一个数据项作为单个图元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的分析和观察

· 以图形、图像、地图、动画等更为生动、易于理解的方式来展示数据的大小,诠释数据之间的关系和发展的趋势,以期更好的理解、使用数据分析的结果。


2. 数据可视化的发展历程

· 2050s后期,随着计算机的出现和计算机图形学的发展,人们可以利用计算机技术在电脑屏幕上绘制各种图形图吧,可视化技术开启了全新的发展阶段。

· 最初,可视化技术被大量应用于统计学领域,用来绘制统计图表,比如圆环图、柱状图、饼状图、直方图、时间序列图、等高线图、散点图等,后来,又逐步的应用于地理信息系统、数据挖掘分析、商务智能工具等,有效地促进了人类对不同类型数据的理解与分析

· 随着大数据时代的到来,每时每刻都有海量数据在不断生成,需要我们对数据进行即时、全面、快速、准确的分析,呈现数据背后的价值,这就更需要可视化技术协助我们更好的理解和分析数据,可视化成为大数据分析的最后一环和对用户而言最重要的一环


3. 可视化的作用

在大数据时代,可视化技术可以实现多种不同的目标:观测、跟踪数据;分析数据;辅助理解数据;增强数据吸引力等


--------------------------------------------------------------------------------------------------------

基于统计的数据探索可视化



1. 描述统计(Descriptive Statistics)

· 内容:整理数据、展示数据、描述性分析

· 目的:描述数据特征、找出数据的基本规律


2. 推断统计(Inferential Statistics)

· 内容:参数估计、假设检验

· 目的:对总体特征做出判断


 


3. 数据的整理与展示

· 要弄清所面对的数据的类型,因为不同类型的数据所采取的处理方式和方法是不同的

· 对分类数据和顺序数据主要是做分类整理

· 对数值型数据则主要做分组整理

· 适用于低层次数据的整理和显示方法也适用于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据


1. 分类数据

· 分类数据整理的基本过程:1. 列出各类别 ; 2. 计算各类别的频数;3.制作频数分布表;4.用图形显示数据

· 分类数据整理可统计的计算量有:1.频数(Frequency),落在各类别中的数据个数;2.比例(Proportion),某一类别数据占全部数据的比值;3.百分比(Percentage):将对比的基数作为100而计算的壁纸,即比例*100%;4.比率(Ratio):不同类别数值的比值

· 分类数据整理可用的图示:1.频数分布表;2.条形图,有单式条形图和复式条形图等形式,主要用于反映分类数据的频数分布,绘制时,各类别放在纵轴即为条形图,放在横轴即为柱形图;3.饼图,也叫圆形图,用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示总体或者样本中各组成部分所占的比例,对于研究结构性问题十分有用


2. 顺序数据

· 顺序数据整理可计算的指标有:1.累积频数(Cumulative Frequencies):各类别频数的逐级累加;2. 累计频率(Cumulative Percentages):各类别频率(百分比)的逐级累加

· 顺序数据整理可用的图示:1.频数分布表;2.累积频数分布图;3.环形图,图中间有一个“空洞”,总体中的每一部分数据永环中的一段来表示,与圆形图类似,但是又有区别(圆形图只能显示一个总体各部分所占的比例,而环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环),环形图可用于结构比较研究,主要用于展示分类数据和顺序数据;4.直方图,用矩形的宽度和高度来表示频数分布的图形,实际上使用矩形的面积来表示各组的频数分布,图的总面积为1。5.折线图,也称频数多边形图,是在直方图的基础上,吧直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉,折线图的两个终点要与横轴相交,第一个矩形的顶部中点通过竖边中点连接到横轴,最后一个矩形顶部中点与其竖边重点连接到横轴,折线下所围成的面积与直方图的面积相等,二者所表示的频数分布要一致


(直方图与条形图的区别:1.条形图使用条的长度来表示各类别频数的多少,而宽度是固定的;2.直方图使用面积来表示各组频数的多少,矩形的高度表示每一组的频数或者百分比,宽度则表示各组的组距,其宽度和高度均有意义;3.直方图的各举行通常是连续排列,而条形图则是分开排列;4.条形图主要用于展示分类数据,而直方图主要用于展示数值型数据)



(频数分布表)



(累积频数分布图)



(环形图)



(折线图)


对于未分组数据,可以使用茎叶图、箱线图、等。

1. 茎叶图:

· 用于显示未分组的原始数据的分布

· 由“茎”和“叶”两部分组成,其图形是由数字组成的

· 以该组数据的高位数值做树茎,低位数字做树叶

· 树叶上只保留一位数字

· 对于 n (20 ≤ n ≤ 300)个数据,茎叶图最大行数不超过L = [10 × lg(n) ]

· 茎叶图类似于横置的直方图,但是又有区别:直方图可以观察一组数据的分布情况,但是没有给出具体的数值,而茎叶图既能给出数据的分布情况,又能给出每一个原始数值,保留了原始数据的信息



(茎叶图)



(扩展的茎叶图)


2. 箱线图

· 用于显示未分组的原始数据的分布

· 箱线图由一组数据的5个特征值绘制而成,由一个箱子和两条线段组成

· 绘制方法是:首先找出一组数据的5个特征值,即最大值、最小值、中位数Me和两个四分位数(下四分位数Ql和上四分位数Qu)。然后连接两个四分位数画出箱子,再将两个极值点与箱子相连接







(多批数据箱线图)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值