hive
hive
StellaLiu萤窗小语
这个作者很懒,什么都没留下…
展开
-
hive调优
hive调优Fetch抓取本地模式表的优化小表、大表Join大表Join大表1.空KEY过滤2.空key转换不随机分布空null值:随机分布空null值MapJoin(小表join大表)Group ByCount(Distinct) 去重统计笛卡尔积行列过滤动态分区调整分桶分区合理设置Map及Reduce数复杂文件增加Map数小文件进行合并合理设置Reduce数并行执行严格模式JVM重用推测执行压缩执行计划(Explain)Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapR原创 2020-11-29 15:02:36 · 94 阅读 · 0 评论 -
hive文件存储格式
文件存储格式TextFile格式Orc格式Orc格式Parquet格式主流文件存储格式对比实验Hive支持的存储数据的格式主要有:TEXTFILE(行存储) 、SEQUENCEFILE(行式)、ORC(hive)、PARQUET(spark)。1.行存储的特点查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。2.列存储的特点因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大原创 2020-11-29 11:45:20 · 202 阅读 · 0 评论 -
hive操作
CREATE TEMPORARY临时表查询表结构show table extended like ‘pdw_j03_ld_pkg_dim_columnset’1.hive模糊搜索表show tables like ‘name’;2.查看表结构信息desc table_name;desc table_name;3.查看分区信息show partitions pdw_j03_ld_pkg_a062;4.根据分区查询数据select table_coulm from table_name转载 2020-11-29 10:53:03 · 319 阅读 · 0 评论 -
数据倾斜的原因和解决方案
数据倾斜的原因和解决方案MapReduce简介MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算原创 2020-11-29 10:40:09 · 893 阅读 · 0 评论 -
数据倾斜
数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。数据倾斜是指:mapreduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。Hive的转载 2020-11-29 10:22:38 · 217 阅读 · 0 评论 -
Hive基本面试(一)
一. Hive基本面试1.什么是metastore.metadata即元数据。包含database、tabel、column names、partitions信息、bucketing信息等的元数据信息。元数据默认是存储在Derby中,建议存储在关系型数据库中。2.metastore安装方式有什么区别.· 内嵌模式o 内嵌模式使用的是内嵌的Derby数据库来存储元数据,也不需要额外起Metastore服务。这个是默认的,配置简单,但是一次只能一个客户端连接,适用于用来实验,不适用于生产环境。·原创 2020-11-29 08:37:22 · 337 阅读 · 0 评论 -
Hive查询及常用查询函数
Hive查询功能一、排序1.全局排序 (order by)2.每个MapReduce内部排序(Sort By)3.分区排序(Distribute By)4. Cluster By二、分桶(分文件)1.分桶表数据存储2. 分桶抽样查询函数空字段赋值NVLCASE WHEN行转列(多行转集合)CONCAT,列转行(集合拆多行)EXPLODE窗口函数(下一篇)总结查询功能提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就.原创 2020-11-28 14:41:38 · 453 阅读 · 0 评论 -
hive窗口函数及笔试题目总结
窗口函数一、函数介绍1、OVER():2、其他函数3、排序函数介绍二、over使用介绍1、数据准备2、查询购买顾客姓名及购买总人数–窗口大小为筛选后的数据集2.1 分组查询购买顾客姓名,但是没有顾客总数2.2 使用over计算购买总人数2.3 sql讲解:count(*) over()3、查询顾客的购买明细及 月购买总额-窗口分区大小3.1 购买明细3.2 购买明细及总额3.3 总额计算解析4、求每个用户购买明细及将cost按照日期进行累加4、其他参数介绍5、查看顾客上次的购买时间-lag函数使用6、查看顾转载 2020-11-28 15:26:17 · 915 阅读 · 0 评论