EDA常用指标:四分位距IQR,变异系数CV,峰度,偏度,绝对中位差MAD介绍

1.四分位距IQR

IQR指 四分位距(interquartile range, IQR) ,IQR = Q3 − Q1,又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别。与方差、标准差一样,表示统计资料中各变量分散情形,但四分差更多为一种稳健统计(robust statistic),IQR能用来计算数据分布上下限,超过上下限的认为是异常值,下限=Q1-1.5IQR, 上限=Q3+1.5IQR

2.变异系数CV

变异系数 CV(coefficient of variation),又称“离散系数”,是概率分布离散程度的一个归一化量度,其定义为标准差  与平均值  之比, 反映变量之间的相对离散程度

图片

变异系数的优点:(1)消除单位的影响(2)消除均值大小不同的影响

变异系数参考范围:小于等于(n平方/4-n/2+1)**0.5(n为样本量)

3.峰度Kurtosis 偏度skewness

峰度,是研究数据分布陡峭或平滑的统计量,通过对峰度系数的测量,我们能够判定数据相对于正态分布而言是更陡峭还是平缓。比如正态分布的峰度为0,均匀分布的峰度为-1.2(平缓),指数分布的峰度为6(陡峭)

图片

偏度(英语:skewness),亦称歪度,偏度的值可以为正,可以为负或者甚至是无法定义。在数量上,偏度为负(负偏态;左偏)就意味着在概率密度函数左侧的尾部比右侧的长,绝大多数的值(不一定包括中位数在内)位于平均值的右侧。偏度为正(正偏态;右偏)就意味着在概率密度函数右侧的尾部比左侧的长,绝大多数的值(不一定包括中位数)位于平均值的左侧。上面说的不一定包括中位数在内的例子比如存在少数富豪拥有巨额财富的情况下的财富分配分布

图片

4绝对中位差MAD

绝对中位差Median Absolute Deviation是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果

图片

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这是一个关于 MATLAB 函数的问题,我可以回答。对于正态分布的随机数,您可以使用 MATLAB 的 “normrnd()” 函数。以下是计算均值、方差、标准差、变异系数偏度峰度的 MATLAB 代码: ```MATLAB % 样本容量分别为 100,1000,10000,期望为 32,方差为 58 sample_size = [100, 1000, 10000]; mu = 32; sigma = sqrt(58); % 产生正态分布的随机数 for i = 1:length(sample_size) data{i} = normrnd(mu, sigma, 1, sample_size(i)); end % 计算均值、方差、标准差、变异系数偏度峰度 for i = 1:length(sample_size) mu_hat(i) = mean(data{i}); % 均值 var_hat(i) = var(data{i}); % 方差 std_hat(i) = std(data{i}); % 标准差 cv(i) = std_hat(i) / mu_hat(i); % 变异系数 skewness(i) = skewness(data{i}); % 偏度 kurtosis(i) = kurtosis(data{i}); % 峰度 end % 显示结果 disp("均值: " + mu_hat) disp("方差: " + var_hat) disp("标准差: " + std_hat) disp("变异系数: " + cv) disp("偏度: " + skewness) disp("峰度: " + kurtosis) ``` 对于 prctile 函数计算上下四分数、四分极差,您可以使用以下代码: ```MATLAB for i = 1:length(sample_size) q1(i) = prctile(data{i}, 25); % 下四分数 q3(i) = prctile(data{i}, 75); % 上四分iqr(i) = iqr(data{i}); % 四分极差 end % 显示结果 disp("下四分数: " + q1) disp("上四分数: " + q3) disp("四分极差: " + iqr) ``` 最后对于三均值的计算,您可以使用以下MATLAB代码: ```MATLAB for i = 1:length(sample_size) m1(i) = median(data{i}); %计算第一个数 data_sorted=sort(data{i}); l_mid=floor((length(data_sorted)+1)/2); r_mid=ceil((length(data_sorted)+1)/2); if r_mid==l_mid m2(i)=data_sorted(l_mid); m3(i)=m2(i); else m2(i)=data_sorted(l_mid); m3(i)=data_sorted(r_mid); end end % 显示结果 disp("第一个数: " + m1) disp("第二个数: " + m2) disp("第三个数: " + m3) ``` 如果您还有其他问题,请继续问我,我尽力回答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值