数据分析之数据离散程度量化-概率密度分布

多维度数据时,可以考虑使用概率密度估计方法,如核密度估计(Kernel Density Estimation,KDE),来获得概率分布。对于多维度特征的数据,每个维度可以被视为一个随机变量,而联合概率密度函数描述了这些变量的联合分布。

量化数据的离散程度或分布的差异常见的方法:

  1. Kullback-Leibler(KL散度):定义根据公式来看,是交叉熵减去信息熵,认作“近似一个分布与另一个分布时损失了多少信息”,“较不可能发生的事件具有更高的信息量”,按这个标准的话,KL散度应该是一个分布变成另一个分布不确定度(或者信息量)升高的数量。

  2. Jensen-Shannon Divergence(JS散度): 它是KL散度的平均,用于衡量两个概率分布之间的相似性。JS散度是对称的,与KL散度相比,更容易计算。

  3. Earth Mover's Distance(EMD): 也称为 Wasserstein距离,它衡量将一个分布转移到另一个所需的最小工作量。EMD在处理离散分布时很有用,尤其是在图像处理和计算机视觉中。

  4. Chi-squared (卡方) 统计量: 用于衡量观察值与期望值之间的差异,适用于比较观察到的数据分布和期望的理论分布。

  5. Hellinger Distance: 衡量两个概率分布之间的相似性,是概率测度之间的一种度量。

  6. Total Variation Distance: 也称为总变差距离,衡量两个概率分布之间的最大差异。

  7. Kolmogorov-Smirnov统计量: 用于比较两个分布的累积分布函数(CDF),衡量它们之间的最大垂直距离。

选择使用哪种方法取决于具体需求和数据的性质。不同的方法可能对数据的不同方面有不同的敏感性。例如,KL散度对于概率分布的“距离”有严格的定义,而EMD对于分布的结构和形状更加敏感。因此,最佳选择取决于关心的特定方面。

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值