如何描述数据分布的特征?

数据分布的特征可以从集中趋势,离中趋势,偏态和峰态三个方面进行描述

一.集中趋势(位置)

是一组平均指标,它反映了总体的一般水平或分布

1.平均数

分为:简单平均数(均值),加权平均数,几何平均数

特点:是集中趋势最常用的测度值;是一组数据的均衡点所在;易受极端值影响;用于数值型数据,不能用于分类数据和顺序数据

简单平均数

加权平均数

几何平均数

主要用于计算平均增长率

 

2.中位数

排序后处于中间位置上的值

主要用于顺序数据,也可用于数值型数据,但不能用于分类数据

不受极端值的影响

3.众数

一组数据中出现次数最多的数据值

一组数据可能没有众数或有多个众数

适合数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用

二.离中趋势(分散程度)

是一组变异指标,主要是用来刻画总体分布的变异状况或离散程度

1.极差

是一组数据的最大值和最小值之差

特点:极差越大,离散程度越大;离散程度最简单的测度值;易受极端值影响;未考虑数据的分布

2.平均差

是各变量与均值差的平均数,即平均差异,反映一组数据的离散程度

特点:各变量与均值差的绝对值的平均数;数学性质较差,实际应用较少;未考虑数据的分布

3.方差

反映的是各变量与均值差的平均差异,是数据离散程度最常用的测度值

总体方差:根据总体数据计算的

样本方差:根据样本数据计算的

4.标准差

是方差的算术平方根,也是数据离散程度常用的测度

5.变异系数

是标准差与其对应的均值之比

用于对不同组别的数据比较其离散程度

当比较两组数据离散程度时:如果他们的平均数相同,可以直接利用标准差来比较,标准差越大,离散程度越大;但如果平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(即变异系数)来比较

三.偏态和峰态(形状)

反映数据总体分布形态的指标

偏态:反映数据分布不对称的方向和程度

峰态:反映数据分布图的尖峭程度或扁平程度

1.偏态系数

是数据分布偏斜程度的测度

偏态系数 = 0时:对称分布

偏态系数 > 0时:右偏分布

偏态系数 < 0时:左偏分布

2.峰态系数

是数据分布尖峭程度的测度

峰态系数 = 0时:峰度适中

峰态系数 > 0时:尖峰分布

峰态系数 < 0时:偏平分布

四.数据标准化

定义:数据指数化

意义:能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单位或量级的指标能够进行比较和加权

0-1标准化:也叫离差标准化,是对原始数据进行线性变换,是结果落到 [0,1] 区间

z-score标准化:也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1

要利用MATLAB从Excel文件中加载数据,并计算平均值、中位数、标准偏差、方差、偏度和峰度,同时使用直方图展示数据分布,可以遵循以下步骤: 参考资源链接:[MATLAB:每日卡路里消耗数据分析与统计特性可视化](https://wenku.csdn.net/doc/83w7tbjqdq) 1. **数据加载**: 使用`xlsread`函数从Excel文件加载数据。假设数据存储在名为'calorie_data.xlsx'的文件中,并位于名为'Sheet1'的工作表中,列名为'Calories'。 ```matlab [data, txt, raw] = xlsread('calorie_data.xlsx', 'Sheet1', 'Calories'); ``` 2. **计算描述性统计量**: - **平均值**: ```matlab mean_calories = mean(data); ``` - **中位数**: ```matlab median_calories = median(data); ``` - **标准偏差**: ```matlab std_calories = std(data); ``` - **方差**: ```matlab var_calories = var(data); ``` - **偏度**: ```matlab skewness_calories = skewness(data); ``` - **峰度**: ```matlab kurtosis_calories = kurtosis(data); ``` 3. **数据可视化**: 使用`histogram`函数绘制数据的直方图,并设置`Normalization`参数为'pdf'(概率密度函数)来转换频率为概率密度。使用`hold on`命令来在同一图表上绘制正态分布曲线,以便比较数据分布与正态分布。 ```matlab histogram(data, 'Normalization', 'pdf'); hold on; x = linspace(min(data), max(data), 100); y = normpdf(x, mean_calories, std_calories); plot(x, y, 'r', 'LineWidth', 2); hold off; xlabel('Calories'); ylabel('Probability Density'); title('Daily Calorie Consumption Histogram and Normal Distribution'); ``` 以上步骤将帮助你在MATLAB中加载Excel数据,计算关键的描述性统计量,并通过直方图可视化数据分布。偏度和峰度的计算能够帮助你了解数据的形状和分布特性,而直方图则直观展示数据的实际分布情况。 为了进一步掌握如何在MATLAB中进行数据分析和可视化,我建议你参考《MATLAB:每日卡路里消耗数据分析与统计特性可视化》这本书。该资源不仅提供了完整的数据分析实例,还涵盖了如何利用MATLAB进行数据处理和可视化的高级技巧,非常适合希望深入学习数据分析技术的专业人士。 参考资源链接:[MATLAB:每日卡路里消耗数据分析与统计特性可视化](https://wenku.csdn.net/doc/83w7tbjqdq)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值