淳朴的大数据抽样方法

最新推荐文章于 2021-08-17 20:02:35 发布

曾耀鹏

最新推荐文章于 2021-08-17 20:02:35 发布

阅读量903

点赞数

分类专栏：机器学习与数据挖掘相关

本文链接：https://blog.csdn.net/u010717015/article/details/8965825

版权

机器学习与数据挖掘相关专栏收录该内容

1 篇文章 0 订阅

订阅专栏

方法不是我原创的，只是学习了别人的方法，用自己的语言总结一下。

问题描述：

超大数据，随机等概率抽取m个样本，如何进行？

问题分析：

问题在于一开始并不知道数据规模，如果知道数据的数量n，自然可以以m/n的概率对每一个逐条读入的数据选择是否抽取。

解决方案：

逐条读入数据，

1. 1~m条数据，均存入待定数组(数组定长m)

2. 读到于第k条数据时

- 第k条数据选中的概率为： m/k

- 对于原来待定数组中的数据，随机选择一条，替换为新数据(第k条数据)

证明：

1. 前m条数据

被第K条数据替换的概率为： 1/m * m/k = 1/k = k-1/k, k = m+1, m+2, ... , n

所以最终被选中的概率为：

(m / m + 1) * (m + 1/m+2)* .... * (n - 1 / n) = m /k

2. m + 1, m+2, ...n这些后续数据（和上面差不多，偷懒不写了）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

曾耀鹏

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

《大数据时代小数据分析》案例

10-09

《大数据时代小数据分析》这本书对应的案例，和书本的章节是对应的

大数据开发Hive之如何进行数据抽样

m0_58371965的博客

12-28

235

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，大数据培训因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样（SAMPLING）的功能，能够根据一定的规则进行数据抽样，目前支持数据块抽样，分桶抽样和随机抽样，具体如下所示： 1. 数据块抽样（tablesample()函数） 1） tablesample(n percent) 根据hive表数据的大小按比例抽取数据，并保存到新的hive表中。如：抽取原hive表中10%的数据

参与评论您还未登录，请先登录后发表或查看评论

大数据抽样- 概率抽样，随机采样

热门推荐

CWS_chen

02-26

2万+

在统计学中，抽样（Sampling）是一种推论统计方法，是指从目标总体（Population，或称为母体）中抽取一部分个体作为样本（Sample），通过观察样本的某一或某些属性，依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断，从而达到对总体的认识。概率抽样方法简单随机抽样（simple random sampling），也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样...

大数据之Hive（三）：Hive数据抽样

Oak_Komorebi的博客

08-17

537

当数据规模不断膨胀时，我们需要找到一个数据的子集来加快数据分析效率。因此我们就需要通过筛选和分析数据集为了进行模式 & 趋势识别。目前来说有三种方式来进行抽样：随机抽样，桶表抽样，和块抽样。 3.1 随机抽样关键词：rand()函数。使用rand()函数进行随机抽样，limit关键字限制抽样返回的数据，其中rand函数前的distribute和sort关键字可以保证数据在mapper和reducer阶段是随机分布的。案例如下： select*fromtable_name w...

大数据算法-蓄水池抽样算法（Reservoir Sampling）

qq_654603797

07-22

400

背景：给定一个数据流，数据流长度N很大，且N直到处理完所有数据之前都不可知，从 N 个样本中随机选择 K 个样本，其中 N 非常大（以至于 N 个样本不能同时放入内存）或者 N 是一个未知数，请问如何在只遍历一遍数据（O(N)）的情况下，能够随机选取出k个不重复的数据: 数据流长度N很大且不可知，所以不能一次性存入内存。时间复杂度为O(N)。随机选取k个数，每个数被选中的概率为k/N。思路：假设数据序列的规模为n，需要采样的数量的为k。首先构建一个可容纳k个元素的数组，将序...

大数据全样而非抽样原理-一文带你了解什么是大数据.pdf

12-24

大数据全样而非抽样原理是近年来信息技术领域的一个重要变革，它揭示了大数据时代与传统数据处理方式的不同之处。本文将深入解析大数据的概念、产生原因、特点、影响以及支撑技术。首先，为什么会出现大数据？...

大数据背景下基于社交网络的聚类随机游走抽样算法研究.pdf

07-04

随机游走抽样则是一种概率抽样方法，可以在网络中随机选取节点作为样本。通过社区聚类后再进行随机游走抽样，不仅能够保持社区内部的紧密联系，而且可以有效避免传统算法容易陷入局部网络的缺陷。文章最后提到，该...

基于增量随机抽样的大数据迭代优化FCM算法.pdf

07-05

通过随机抽样的方法，从大数据集中抽取一部分样本来进行处理和分析，这不仅减少了内存的需求，同时也加快了处理速度。与传统抽样不同的是，增量随机抽样可以在迭代过程中动态地调整抽样策略，以适应数据的分布和变化...

抽样调查理论与方法-第二版-冯士雍-课后答案

最新发布

04-04

4. 抽样方法：抽样方法包括有顺序不重复抽样、无顺序不重复抽样、重复抽样等，每种方法都有其适用的场景和优缺点。 5. 统计量：如样本平均数、样本方差等是描述样本特征的统计量，它们可以用来推断总体参数。 6. ...

大数据背景下定量社会研究方法的创新.pdf

07-05

例如，传统的小数据往往依赖于抽样调查来推断总体特征，但在大数据时代，由于数据量巨大，抽样方法面临着挑战，因为大数据本身可以是对整体的直接观察。其次，大数据在定量社会研究中的应用不仅局限于资料收集阶段...

浅析大数据挖掘中抽样估计法的应用.pdf

07-14

浅析大数据挖掘中抽样估计法的应用.pdf

大数据 取样

illfm的专栏

11-17

793

// 对于大数据，如几个G的csv文件，如何随机抽取一定量的数据（并保持有序）是个复杂的问题 // 这段代码并不能做到随机取样，紧紧只是每十个数据取第一个数据而已 // 如有更加高效且随机的方法，欢迎留言~ import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileReader; im

67- 大数据-hive 查询数据十一：数据块抽样

yaoyelinger0912的博客

07-15

203

数据块抽样

哈工大 大数据算法固定大小采样水库抽样算法

陈泊舟的博客

06-18

4235

固定大小采样问题定义假定每个时刻都有一个数据流中的一个数据到来，我们要维护一个样本，这个样本动态更新，但是它时刻都是已经流过的数据的均匀抽样。我们通常使用水库抽样算法解决这个问题。水库抽样算法算法 m←0m \leftarrow 0m←0 使用数据流的前sss个元素对抽样数组进行初始化A[1,...,s],m←sA[1,...,s],m\leftarrow sA[1,...,s],m←s 对于每一个更新xxx xxx以sm+1\frac{s}{m + 1}m+1s概率随机替换A

有全量大数据了，还要用估算、抽样吗？

weixin_52346300的博客

09-27

710

这是我的第59篇原创统计学是一个用数学研究现实世界的学科，研究的手段就是搜索、整理、分析、描述数据等手段。你看，跟数据分析师的工作是不是很像啊？统计学家是一个很有意思的职业，早期的统计学家...

Hive实现数据抽样的常用三种方法

大数据ING的博客

11-15

9483

背景在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。 Hive提供了数据取样（SAMPLING）的功能，能够根据一定的规则进行数据抽样，目前支持数据块抽样，分桶抽样和随机抽样，具体如下所示： 1、随机抽样（rand()函数）（1）使用rand()函数进行随机抽样，limit关键字限制抽样...

提分策略：数据采样方法最全总结！

Datawhale

11-24

6276

采样策略汇总背景数据采样很多人都听过，书上亦或是博客上面，但并不是每个人在实践中都会用到，按实践经验来讲，原始数据包含了所有的信息，我们随意增加数据亦或者是删除数据，完全是没有必要的操作...

大数据技术与抽样数据分析的不同之处

苦行僧

08-20

4812

大数据和以往的信息产出方式相比具有三个明显的特征—数据量大、非结构性和实时性，它创造了一个无限可能的世界。企业正在以史无前例的方式建立和应用大数据解决方案，这些方案不仅能够帮助他们实现收益的最大化，更重要的是他们重新定义了与客户的关系。企业为何变得如此痴迷？大数据真的和以前大范围数据处理有着如此大的差别么？ • 抽样数据分析VS全数据分析直到

大数据工程师必备之蓄水池抽样算法

bitcarmanlee的博客

10-01

1万+

做大数据的同学经常会有这样的需求：给出一个数据流，这个数据流的长度很大或者未知。并且对该数据流中数据只能访问一次。请写出一个随机选择算法，使得数据流中所有数据被选中的概率相等。或者也可以这么说：要求从N个元素中随机的抽取k个元素，其中N的大小未知。很多同学说，擦，这还不简单么，将所有元素保存在一个列表中，然后再随机取k个不就完了么。好吧，如果你不是专门搞大大大数据的同学，这么说我觉得