大数据随机样本划分生成及判定

最新推荐文章于 2024-01-26 09:39:18 发布

NP_hard

最新推荐文章于 2024-01-26 09:39:18 发布

阅读量2.7k

点赞数 3

本文链接：https://blog.csdn.net/NP_hard/article/details/121524431

版权

该实验探讨了大规模数据集随机样本的生成方法，通过对比不同分布（高斯、指数、均匀）的样本误差，验证了样本分布函数与理论分布函数的相似性。在HDFS和RSP数据块划分的实验中，发现RSP数据块能更好地保持分布特性，尤其在排序后，其样本分布对理论分布的拟合效果优于HDFS。

摘要由CSDN通过智能技术生成

实验目的

掌握大规模数据集随机样本划分的生成方法和判别方法

实验内容

（一）生成服从已知分布的N个随机数，验证N对样本分布函数与理论分布函数之间误差的影响，可以在2个分布上进行验证；
（二）尝试对N个随机数进行不同的数据划分，在各个数据块上验证样本分布函数与理论分布函数之间的误差，检验哪种数据划分能够保证在数据块上都能得到理想的样本分布函数和理论分布函数的拟合效果。

实验过程

验证N对样本分布函数与理论分布函数之间误差的影响

首先，我们实验的总体思路生成N个服从某个分布的随机数X，然后将X按照从小到大的顺序重现编码（即将X排序），得到X’，然后利用函数
$\begin{cases} 1& if \ x>x_{(N)}\\ 0& x<x_{(1)}\\ k/N& x_{(k)}< x < x_{(k+1)} \end{cases}$
将这些数据表示为离散的概率分布函数，然后再与理论的概率分布函数进行比较

本次实验我们采用KL散度(相对熵)来衡量两个离散的概率分布的相似性，以此来量化不同N生成的经验分布函数对理论分布函数的好坏，KL散度越小（越接近0），说明这两个概率分布越相似

import scipy.stats  

def KL_divergence(p,q):  
    return scipy.stats.entropy(p, q)

高斯分布

我们生成N个服从高斯分布（μ=200，σ=25）的随机数，并确定随机数值域的上下界，再对这些数据进行经验函数的映射，得到经验分布函数的step图，再与通过公式计算得到的高斯分布的理论分布函数进行对比

def plot_gaussian_(mu,sigma,N):  
    # 生成服从高斯分布的随机数  
    X = np.random.normal(mu, sigma, size=N)  
    X = sorted(X)  
    min_x = X[0]  
    max_x = X[-1]# 随机数的上界  
    # 经验分布函数  
    def F(y):  
        def <

最低0.47元/天解锁文章

NP_hard

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
大数据随机样本划分生成及判定

文章目录实验目的实验内容实验过程验证N对样本分布函数与理论分布函数之间误差的影响高斯分布指数分布均匀分布HDFS和RSP数据块的划分数据块未排序数据块已排序N=50N=100N=1000实验结论实验目的掌握大规模数据集随机样本划分的生成方法和判别方法实验内容（一）生成服从已知分布的N个随机数，验证N对样本分布函数与理论分布函数之间误差的影响，可以在2个分布上进行验证；（二）尝试对N个随机数进行不同的数据划分，在各个数据块上验证样本分布函数与理论分布函数之间的误差，检验哪种数据划分能够保证在数据块上
复制链接

扫一扫

专栏目录