统计学基础专栏01---探索性数据分析

统计学基础专栏01—探索性数据分析

0、术语

0.1、探索性数据分析

连续型数据

数据可在一个区间内取任意值

离散型数据

数据只能取整数,例如计数

分类型数据

数据只能从特定集合中取值,表示一系列可能的分类,如屏幕类型LCD,LED

二元数据

0或1,true或false

有序数据

具有明确排序的分类数据

数据特征

通常称数据表中的一列为一个特征

记录

通常称数据表中的一行为一条记录

均值

所有数据之和除以数据的个数

加权均值

各数值乘以相应的权重值,然后加总求和,再除以权重的总和

中位数

使得数据集中分别有一半数据位于该值之上和之下

加权中位数

使得排序数据集中分别有一半的权重之和位于该值之上和之下

切尾均值

在数据集剔除一定数量的极值后,再求均值

稳健

对极值不敏感

离群值

与大部分数据值差异很大的数据值

偏差

位置的观测值和估计值间的直接差异

方差

对于n个数据值,方差是对距离均值的偏差平方后求和,再除以n-1

标准差

方差的平方根

平均绝对偏差

对数据值和均值间偏差的绝对值计算均值

中位数绝对偏差

数据值和中位数间绝对偏差的均值

极差

数据集中最大值和最小值间的差值

顺序统计量

基于从大到小排序的数据值的度量

百分位数

表示一个数据集中,P%的值小于或等于第P百分位数,(100-P)%的值大于或等于第P百分位数

四分位距

第75百分位数和第25百分位数间的差值

箱线图

快速可视化数据分布情况

频数表

将数值型数据的计数情况置于一组间隔(组距)中

直方图

对频数表的绘图,x轴为组距,y轴为计数(或比例)

密度图

直方图的平滑表示,通常基于某种核密度估计

众数

数据集中出现次数最多的类别或值

期望值

如果类别可以与一个数值相关联,可以根据类别的出现概率计算一个平均值

条形图

以条形表示每个类别出现的频数或占比情况

饼图

圆饼中的一个扇形部分表示每个类别出现的频数或占比情况

相关系数

一种用于测量数值变量间相关程度的度量,取值范围在-1~1之间

相关矩阵

将变量在一个表格中按行和列显示,表格中每个单元格的值是对应变量间的相关性

散点图

在绘图中,x轴显示一个变量的值,y轴显示另一个变量的值

列联表

一种对两个或两个以上分类变量做计数的表格

六边形图

一种用于两个数值变量的绘图,图中使用六边形表示记录的组距

等势线图

一种类似于地形图的绘图,显示了两个数值型变量的密度情况

小提琴图

一种类似于箱线图的绘图,但是显示的是密度估计量

1、探索性数据分析

1.1、结构化数据的组成

将非结构化的原始数据结构化

1.2、矩形数据

典型引用结构,如电子表格,数据库表

二维矩阵,行为记录,列为特征

1.3、位置估计

获得每个特征的“典型值”,典型值是对数据最常出现位置的估计,即数据的集中趋势

1.3.1、均值

平均值,切尾均值,加权均值

均值对数据敏感,切尾均值是在中位数和均值之间的折中方案,

1.3.2、中位数和稳健估计量

中位数,数值个数为偶数时,为中间位置两个值的均值

中位数对离群值不敏感,为稳健估计量

1.4、变异性估计

测量数据值是紧密的还是发散的

1.4.1、标准偏差及相关性估值

偏差反映数据围绕中心值的分散程度

测量变异性的方法是估计这些偏差的一个典型值

  • 对均值偏差的绝对值取均值 平均绝对偏差
  • 偏差平方值的均值 方差
  • 偏差平方值的均值的平方根,拥有和原始数据相同尺度 标准差
  • 偏差的中位数 中位数绝对偏差

方差公式中使用除数n为有偏估计,使用n-1为无偏估计

平均绝对偏差对离群值和极值不稳健,方差标准差由于平方则更不稳健,中位数绝对偏差稳健

1.4.2、基于百分位数的估计量

极差对离群值敏感,所以使用百分位数删除两端数据

1.5、探索数据分布

1.5.1、百分位数和箱线图

箱线图基于百分位数绘制

在这里插入图片描述

1.5.2、频数表和直方图

直方图频数表绘制

  • 各组距等宽
  • 包含空组距
  • 各条相互紧挨,除非存在空组距

在这里插入图片描述

1.5.3、密度估计

密度图,用一条连续的线显示数据值的分布情况,可看作由直方图平滑得到

1.6、二元数据和分类数据

条形图直方图差异

  • 条形图的x轴表示因子变量的不同类别,直方图的x轴以数值度量的形式表示某个变量的值
  • 直方图各条形相互紧挨,间隔表示数据中未出现的值;条形图中各条形的显示相互独立

饼图条形图的一种替代形式,但缺乏信息量

1.6.1、众数

分类数据的一个基本汇总统计量,一般不用于数值型数据

1.6.2、期望值

分类数据有一个特殊类型,即数据类别可以表示为统一尺度的离散值,如不同类的价格,此时则可以将数据总结为一个期望值

期望值为加权平均 ,权重为类别出现的概率。

1.7、相关性

数据分析会检测因子之间的相关性,以及预测因子和目标变量之间的相关性。

分为正相关和负相关。

点积的一种标准化变体为相关系数相关系数对离群值敏感,-1为完全负相关,+1为完全正相关,0为不相关。

皮尔逊相关系数如公式

在这里插入图片描述

在这里插入图片描述

即变量v1的平均偏差乘以变量v2的平均偏差,再除以标准差之积

1.7.1、散点图

可视化两个测量数据变量间关系的标准方法,适用于数据量不大的数值型数据

1.8、探索两个及以上变量

一次查看一个变量为单变量分析

相关性分析是比较两个变量间关系的一种重要方法,为双变量分析

1.8.1、六边形图和等势线图(适用于两个数值型变量)

与散点图类似,适用于数据量较大的情况,本质是密度图,x,y坐标分别为两个变量

1.8.2、两个分类变量

使用列联表

1.8.3、分类数据和数值型数据

一些数值型数据是根据分类变量进行分组的,要可视化地比较此类数据的分布情况,此时的简单办法是对每个变量使用箱线图

小提琴图是箱线图的增强表示,宽度可显示出密度,显示出数据的分布情况

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lucas_ch

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值