数据分析之数据离散程度量化-概率密度分布

最新推荐文章于 2024-09-09 17:16:22 发布

Mr_Pingg

最新推荐文章于 2024-09-09 17:16:22 发布

阅读量672

点赞数 6

文章标签：数据分析算法人工智能

本文链接：https://blog.csdn.net/Mr_Pingg/article/details/135214973

版权

多维度数据时，可以考虑使用概率密度估计方法，如核密度估计（Kernel Density Estimation，KDE），来获得概率分布。对于多维度特征的数据，每个维度可以被视为一个随机变量，而联合概率密度函数描述了这些变量的联合分布。

量化数据的离散程度或分布的差异常见的方法：

Kullback-Leibler（KL散度）：定义根据公式来看，是交叉熵减去信息熵，认作“近似一个分布与另一个分布时损失了多少信息”，“较不可能发生的事件具有更高的信息量”，按这个标准的话,KL散度应该是一个分布变成另一个分布不确定度(或者信息量)升高的数量。
Jensen-Shannon Divergence（JS散度）： 它是KL散度的平均，用于衡量两个概率分布之间的相似性。JS散度是对称的，与KL散度相比，更容易计算。
Earth Mover's Distance（EMD）： 也称为 Wasserstein距离，它衡量将一个分布转移到另一个所需的最小工作量。EMD在处理离散分布时很有用，尤其是在图像处理和计算机视觉中。
Chi-squared (卡方) 统计量： 用于衡量观察值与期望值之间的差异，适用于比较观察到的数据分布和期望的理论分布。
Hellinger Distance： 衡量两个概率分布之间的相似性，是概率测度之间的一种度量。
Total Variation Distance： 也称为总变差距离，衡量两个概率分布之间的最大差异。
Kolmogorov-Smirnov统计量： 用于比较两个分布的累积分布函数（CDF），衡量它们之间的最大垂直距离。

选择使用哪种方法取决于具体需求和数据的性质。不同的方法可能对数据的不同方面有不同的敏感性。例如，KL散度对于概率分布的“距离”有严格的定义，而EMD对于分布的结构和形状更加敏感。因此，最佳选择取决于关心的特定方面。

关注