(5)如何判断数据符合哪一种分布

数据的最优分布


前言

前面我讲了大量关于Copulas的联合概率计算方案,这里面有个很重要的问题,也是Copula计算的第一步,怎么确定一组数据的最优分布和累计概率分布?

1、分布是什么?

大千世界,任何一种数据规律符合一种合适的数据分布,我们最熟悉的就是正态分布,举个例子,就像全国学生的高考成绩的分布,考的好的和考的差的分居两头(大约各10%),大多数保持中间水平(80%),这就可以解释为什么正态分布呈现倒扣的钟形。
概率分布用以表达随机变量取值的概率规律,根据随机变量所属类型的不同,概率分布取不同的表现形式,主要分为离散变量概率分布和连续变量概率分布。
离散随机变量
随机实验的所有可能结果都是随机变量。一个随机变量集合用X表示。
如果实验可能的结果是可数的,那么它被称为离散随机变量。例如,如果你抛硬币 20 次,你能得到的正面数可以用一个数字表示。或者篮子里有多少苹果仍然是可数的。
连续随机变量
这些是不能以离散方式表示的值。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸,人体测量的身高、体重、胸围等为连续变量,其数值只能用测量或计量的方法取得。例如,一个人可能有 1.7 米高,1米 80 厘米,1.6666666…米高等。

离散型分布:二项分布、多项分布、伯努利分布、泊松分布。
连续型分布:均匀分布、正态分布、指数分布、伽玛分布、偏态分布、贝塔分布、威布尔分布、卡方分布、F分布。

PDF:概率密度函数(probability density function),是用来描述连续型随机变量的输出值,在某个确定的取值点附近的可能性的大小的函数。
CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实数随机变量x的概率分布,是概率密度函数的积分。随机变量小于或者等于某个数值的概率P(X<=x)即:F(x) = P(X<=x)。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2、如何判断?

2.1 最优分布判断

怎样判断两个分布是否同分布,直观来看就是画出两个分布的累积分布曲线,如果基本重合说明是同分布。
绘制直方图:直方图可以显示数据的数量分布情况。

计算概率密度函数:如果数据符合某种概率分布,可以使用概率密度函数进行拟合,以确定数据的分布。

使用Q-Q图:Q-Q图可以对比数据与理论分布的相似度。设定一系列累计概率,然后求出同一累计概率对应的分位数分别作为x和y来画散点图,如果散点基本分布在y=x这条直线上说明两个累积分布曲线基本吻合,认为两个数据是同分布的。
计算统计量:如均值,方差,偏度,峰度等,可以进一步比较数据之间的分布特征。
当然还有以下的检验方法:

卡方检验(Chi-square test)
在这里插入图片描述

K-S检验(Kolmogorov-Smirnov test)
在这里插入图片描述

A-D检验(Anderson-Darling test)

在这里插入图片描述在这里插入图片描述

2.2 累积概率分布

代码如下(示例):

%以下是示例数据,根据AIC BIC准则计算最优边缘分布
%% 计算经验的概率
EP1_emp = CalcEmpProb(U1);
EP2_emp = CalcEmpProb(U2);
EP_emp = [EP1_emp EP2_emp];

%% 拟合分布的边际和计算拟合的边际概率

% 从多种分布中拟合数据
[D_U1, PD_U1] = marginalallfitdist(data(:,1));
[D_U2, PD_U2] = marginalallfitdist(data(:,2));

% 计算拟合边际概率
EP1 = cdf(PD_U1{1},data(:,1));
EP2 = cdf(PD_U2{1},data(:,2));

% 检查逆是否也满足
IEP1 = icdf(PD_U1{1},EP1);
IEP2 = icdf(PD_U2{1},EP2);

% 如果EP是空值或无穷,则尝试下一个分布
while any( isnan(EP1) | isinf(EP1) | isnan(IEP1) | isinf(IEP1) )
    counter_D_U1 = counter_D_U1 + 1;
    EP1 = cdf(PD_U1{counter_D_U1},data(:,1));
    IEP1 = icdf(PD_U1{counter_D_U1},EP1);
end
counter_D_U2 = 1;
while any( isnan(EP2) | isinf(EP2) | isnan(IEP2) | isinf(IEP2) )
    counter_D_U2 = counter_D_U2 + 1;
    EP2 = cdf(PD_U2{counter_D_U2},data(:,2));
    IEP2 = icdf(PD_U2{counter_D_U2},EP2);
end

% EP = [EP1 EP2];
EP = EP_emp;
%0概率替换为 1e-4
EP( EP == 0 ) = 1e-4;

筛选最优边缘分布特征结果
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
如果需要更多关于数据特征分析方面等的代码(MATLAB和R语言)。也可关注我的专栏,大部分为博士期间日常研究干货分享。详见链接(代码可直接运行,包含注释和示例数据,替换数据即可运行出结果)https://mbd.pub/o/bread/ZZWWlZ5t
欢迎扫码关注公众号,获取更多代码和前沿论文资讯等相关内容

在这里插入图片描述

总结

以上就是今天要讲的内容,本文简单介绍了边缘分布的概念和计算方式,不足之处欢迎大家批评指正,补充交流。

参考文献

Althoff, D., Rodrigues, L.N., 2021. Goodness-of-fit criteria for hydrological models: Model calibration and performance assessment. Journal of Hydrology, 600: 126674. DOI:https://doi.org/10.1016/j.jhydrol.2021.126674
Huang, Z. et al., 2023. Reliability of Ensemble Climatological Forecasts. Water Resources Research, 59(9): e2023WR034942. DOI:https://doi.org/10.1029/2023WR034942
Xu, H. et al., 2022. Amplification of flood risks by the compound effects of precipitation and storm tides under the nonstationary scenario in the coastal city of Haikou, China. Int J Disast Risk Sc, 13(4): 602-620.

  • 21
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值