数据分析
武小胖儿
这个作者很懒,什么都没留下…
展开
-
长拖尾数据的采样方法
截断抽样(Truncated Sampling): 选择数据中的一个截断范围,只保留在这个范围内的数据。对于具有长拖尾(长尾)分布的数据,通常使用传统的随机抽样方法可能不太适用,因为这样的分布意味着有一些极端值(outliers)会对整体分布产生较大影响。加权抽样(Weighted Sampling): 对数据进行加权,使得拖尾部分的数据被赋予更小的权重。专门的分布逼近方法: 有时可以使用参数化分布模型来拟合原始数据的分布,并从拟合的分布中进行抽样。以下内容来自于ChatGPT。原创 2024-01-22 09:37:02 · 412 阅读 · 0 评论 -
Pandas加载大数据集
官方文档提供了4种方法:只加载需要的列、转化数据类型、使用chunking(转化文件存储格式)、使用Dask(使用多进程/线程加载数据)。原创 2024-01-15 09:56:08 · 506 阅读 · 0 评论 -
度量离散程度的统计变量
选择使用标准差还是离散系数通常取决于具体的数据特性和分析目的。在实际应用中,有时也可以同时使用这两个指标,以全面了解数据的分散情况。离散系数和标准差都是用于衡量数据离散程度的统计量,但它们在使用场景和优劣方面有一些不同。原创 2023-12-30 16:47:32 · 445 阅读 · 0 评论