Hive
文章平均质量分 72
Hive的操作以及SQL
Ayub
喜欢学习,喜欢交流分享大数据技术。
展开
-
数仓模型事实表模型设计
事实表:数据明细层,将ODS层的数据,进行ETL后,轻度聚合 ,展开明细! 然后存入DWD层。1、在展开明细时,对部分维度进行扩充。如增加位置信息。2、参考星型模型的建模策略,对业务过程,粒度,维度,事实。使用3W的原则。 who:谁做的 where:在哪里做的 what:做的什么事实表的类型: 在设计事实表的时候,其实有多种不同类型,当然每个公司设计方式不一样。我们在设计的时候就包含3种。1. 事务...原创 2022-03-10 21:47:15 · 365 阅读 · 0 评论 -
scala版本,spark将hive的数据批量导入hbase
1 spark将hive上的数据同步到hbase将hive数据转换为hfile, 快速导入hbase ,里面有很多坑.比如 : 版本不一致.还有就是本地版本和集群版本不一致导致class不存在.写hbase代码最好是使用java和scala。我这里使用的是spark2.4 + hbase 2.1 切记不同版本使用的方法不一样。2 代码package com.test.taskimport java.net.URIimport org.apache.hadoop.conf.Configura原创 2021-07-16 21:17:56 · 933 阅读 · 3 评论 -
hive窗口函数的使用
问题描述:怎样在数据库的一个表里筛选出每一人的时间最新的一条记录select * from(select b.user_code, b.name, b.dept_code, b.register_time, b.is_valid, b.superior_code, b.group_worker, b.member_level, b.activation_state,b.activation_原创 2020-07-27 16:26:53 · 142 阅读 · 0 评论 -
Hive入门学习
Apache Hive1、Hive简介1.1、什么是Hivehive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。主要用途:用来做离线数据分析,比直接用MR开发效率更高。...原创 2020-04-01 10:24:40 · 208 阅读 · 0 评论