Hive_7. 数据抽样

最新推荐文章于 2024-08-17 22:58:11 发布

Mike_H

最新推荐文章于 2024-08-17 22:58:11 发布

阅读量2.9k

点赞数

分类专栏： SQL Functions Hive 文章标签： Hive Sampling

本文链接：https://blog.csdn.net/Mike_H/article/details/50161431

版权

随着数据规模增长，使用数据抽样加速分析变得至关重要。本文介绍了Hive中的三种抽样方法：1) 随机抽样，通过RAND()函数实现；2) 桶表抽样，利用CLUSTERED BY优化；3) 块抽样，按HDFS Block随机选取行或百分比数据。

摘要由CSDN通过智能技术生成

当数据规模不断膨胀时，我们需要找到一个数据的子集来加快数据分析效率。因此我们就需要通过筛选和分析数据集为了进行模式 & 趋势识别。目前来说有三种方式来进行抽样：随机抽样，桶表抽样，和块抽样。

1 随机抽样(Random sampling)：

使用 RAND()函数和 LIMIT 关键字来获得抽样数据。DISTRIBUTE 和 SORT 关键字在这里用来确保 mappers 和 reducers可以高效的使用随机分布的数据。 ORDER BY RAND()语句也可以达到同样目的，但是性能上会稍微差点。

SELECT * FROM <Table_Name> DISTRIBUTE BY RAND() SORT BY RAND()LIMIT <N rows to sample>;
有兴趣的朋友可以进一步参考博客：

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Mike_H

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Hive中的数据采样

jmx_bigdata的博客

03-02

3880

当数据集比较大时，可能需要通过采集一部分数据集进行分析，称之为采样。在HQL中支持三种方式的采样：随机采样(random sampling)、分桶表采样(bucket table sampling)以及块采样（block sampling）。 1.随机采样随机采样使用rand()函数和limit关键字。其中distribute和sort关键字用来保证抽取的数据是随机分布的，这种方式比较有效率...

Hive_6. 数据聚合 -- Group By & Grouping_SETS & RollUp & CUBE & Having

Mike han

12-03

1万+

先完善列表结构，会后续填充内容

参与评论您还未登录，请先登录后发表或查看评论

Hive实现数据抽样的三种方法

最新发布

2401_85842555的博客

08-17

1223

本文将详细介绍SQL中的数据抽样方法，包括简单随机抽样、分层抽样、系统抽样等，并提供实际的SQL代码示例，以帮助读者掌握如何使用SQL进行有效的数据抽样。数据抽样是数据分析中的一项关键技术，通过本文的探讨，我们了解到了SQL中实现数据抽样的多种方法。在实际应用中，合理选择抽样方法，可以帮助我们更高效地获取数据集的代表性样本，从而为决策提供支持。通过本文的介绍，读者应该能够理解数据抽样的基本概念，并掌握SQL中实现数据抽样的方法。在进行数据抽样时，需要注意样本的代表性、抽样误差和抽样方法的选择。

hive 随机抽样

duncan

01-22

1419

1. Random sampling 使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY RAND()语句可以获得同样的效果，但是性能没这么高。 --Syntax： SELECT * FROM <Table_Name> DISTRIBUTE BY ...

【hive】数据采样

atwdy的博客

07-05

1252

参考，可以直接查看原文，下面只是对原文进行概括和实际性能测试。

【Hive SQL】数据探查-数据抽样

qq_34446614的博客

07-26

1168

在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作。下面罗列一些常用的数据抽样方法。

Hive _分桶及抽样查询

乔治大哥的博客

11-04

807

分桶及抽样查询 1、分桶表数据存储分区针对的是数据的存储路径；分桶针对的是数据文件。分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区，特别是之前所提到过的要确定合适的划分大小这个疑虑。分桶是将数据集分解成更容易管理的若干部分的另一个技术。 hive (default)> show databases; OK database_name de...

Hive_5. Hive QL -- Hive 查询优化

Mike han

12-03

1535

HiveQL 查询 _1 (翻译于《Programing Hive》)：http://flyingdutchman.iteye.com/blog/1869472HiveQL 查询 _2 (翻译于《Programing Hive》)：http://flyingdutchman.iteye.com/blog/1869621HiveQL 查询 _3 (翻译于《Programing Hive》)：h

四、Hive数据仓库应用之Hive数据查询语言（二）（超详细步骤指导操作，WIN10，VMware Workstation 15.5 PRO，CentOS-6.7）

weixin_42051846的博客

12-17

1434

Hive数据仓库应用实验之Hive数据查询语言，熟悉了解排序操作、UNION语句、JOIN语句以及抽样查询，WIN10系统，虚拟机软件VMware Workstation 15.5 PRO，Linux版本CentOS-6.7，超详细步骤配图详解，对新手友好。

Hive 的统计信息和数据采样

互联网知识分享

08-06

888

统计信息可以提供表和分区的数据分布、列的基本统计数据等信息，帮助查询优化器生成更好的执行计划。中，可以使用数据采样来快速预览表或分区的数据分布情况。可以根据具体需求选择不同的统计信息和采样方法来优化查询性能和分析数据。这个命令将计算指定分区的统计信息，并将其存储在元数据中。此命令会遍历表的所有分区，并计算每个分区的统计信息。如果表中有分区，可以对分区级别的统计信息进行收集。这个命令将计算指定列的统计信息，并将其存储在元数据中。表级统计信息包括表的总行数、总字节数、列的基本统计信息等。

hive随机采样

不可能打工的博客

09-07

1075

数据量大的时候，对数据进行采样，然后再做模型分析。作为数据仓库的必备品hive，我们如何对其进行采样呢？假设有一张包含100亿行的Hive表，希望有效地随机抽样一个固定行数的数据 - 比如10000。最明显(而且显然是错误的)的方法是： select * from my_table limit 10000; 如果不对表进行排序，Hive不保证数据的顺序，但在实践中，它们按照它们在文件中的顺序返回...

Hive抽样取数

一个8年大数据开发工程师的碎碎念

05-07

1021

在生成中表的数据量太大，几亿行的时候，希望取出部分数据来看一下数据特征，采用抽样取数的方法是比较靠谱的。主要有利用随机数抽样、分块抽样、分桶抽样这几个方式。如下是例子和说明：建表语句 CREATE TABLE tripdata (country STRING, city STRING, visitors INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY...

hive表随机采样

my blogs

12-18

199

select * from test.hello distribute by rand() sort by rand() limit 200;

Hive中的分区、分桶以及数据抽样

大数据学习与分享的博客

12-21

742

6. Hive中的分区、分桶以及数据抽样对Hive表进行分区、分桶，可以提高查询效率，抽样效率 6.1 分区分区，在hdfs中表现为table目录下的子目录 6.2 分桶对应建表时bucket关键字，在hdfs中表现为同一个表目录下根据hash散列之后的多个文件，会根据不同的文件把数据放到不同的桶中。如果分桶表导入数据没有生成对应数量的文件，可通过如下方式解决：开启自动分桶，设置参数：set hive.enforce.bucketing= true 手动设置reduce数量，比如set m

hive三种采样方式

youyubuhuilei的博客

08-11

178

/ 推荐使用这种。

Hive 数据抽样

邦涛的博客

12-08

2011

Hive 抽样语法桶抽样块抽样 随机抽样 分类随机抽样 快捷键 Markdown及扩展表格定义列表代码块脚注目录数学公式 UML 图离线写博客浏览器兼容Hive 抽样语法Hive使用TABLESAMPLE语法对表进行抽样桶抽样桶抽样语法：tablesample (bucket x out of y [on colname]) tablesample可以用在任何表上，不单

Hive Sampling 抽样函数：Random随机抽样、Block 基于数据块抽样、Bucket table 基于分桶表抽样

pljnb的博客

02-20

494

Hive Sampling 抽样函数：Random随机抽样、Block 基于数据块抽样、Bucket table 基于分桶表抽样

hive sql 分组随机取数

weixin_35057064的博客

10-09

1943

hive SQL 分组随机取数

hive的分桶抽样查询

09-03

Hive的分桶抽样查询是通过对分桶字段的值进行哈希运算，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中，从而实现对分桶数据的抽样查询。要进行分桶抽样查询，可以使用以下语句：select * from tablename tablesample(bucket x out of y);其中x表示选择的桶数，y表示总共的桶数。在进行分桶抽样查询之前，需要设置hive.enforce.bucketing=true，以确保分桶功能生效。123 #### 引用[.reference_title] - *1* *3* [Hive 查询之分桶及抽样查询](https://blog.csdn.net/m0_37294838/article/details/89817783)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [Hive 分桶及抽样查询](https://blog.csdn.net/qq_39327985/article/details/89002533)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]