Hive 系列
文章平均质量分 71
Hive 深入浅出
Michealkz
这个作者很懒,什么都没留下…
展开
-
Hive元数据表释义及表关系
hive版本的元数据表 version字段含义值VER_IDid主键1SCHEMA_VERSIONhive 版本1.1.0-cdh5.16.2SCHEMA_VERSION_V2hive 版本NULLVERSION_COMMENT版本说明Set by MetaStore hadoop@192.168.52.50mysql> sel...原创 2020-04-30 11:24:23 · 3554 阅读 · 5 评论 -
LATERAL VIEW EXPLODE函数详解及应用
在进行统计分析的时候有时候会有类似这样的需求 比如求某个平台某一天所有的订单总和,或者淘宝所有pc 端的交易总和,这个时候我们可以基于原本基础的数据进行炸裂处理之后得出结结果值,方便后续进行查询,这种提前进行预聚合的思想长用于即席查询分析的场景中,比如为了适用于某张报表的多条件查询可以采用此种方式结合预聚合的方式进行操作。原创 2021-10-31 13:28:17 · 8465 阅读 · 2 评论 -
Hive 常用函数总结
Hive 常用函数总结数学函数日期函数条件函数字符串函数聚合函数表生成函数行列转换窗口函数进阶函数数学函数round(double d, int n):返回保留n位小数的近似d值hive (default)> select round(3.1415,2) round from dual;3.14floor(double d): 返回小于d的最大整值hive (default)> select floor(3.1415) round from dual;3ceil(dou.原创 2021-09-05 16:34:28 · 946 阅读 · 0 评论 -
Spark Core 实现求共同好友
数据样本:第一列为people,冒号后面为对应的好友按照逗号分割A:B,D,E,H,I,O,CB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:B,C,D,E,O,M需求:求出有共同好友的所有情况比如:A和B 的共同好友为C E那么,展示形式即为A-B:C,E思路分析:1.先将好友对应的People 转换格式比如:A:B,D转换成为如下形式(B,List(A)) (D,List(A))2.按照Key进行聚合得到聚合之后的结果数据(D,List(原创 2021-08-08 13:38:12 · 486 阅读 · 0 评论 -
Hive 商品案例
Hive指标案例准备数据表结构指标计算准备数据先创建txt表导入数据,然后将表数据导入ORC表中-- createtable.hqldrop database sale cascade;create database if not exists sale;create table sale.dimdate_ori(dt date,yearmonth int,year smallint,month tinyint,day tinyint,week tinyint,weeks tin原创 2021-05-08 21:51:42 · 803 阅读 · 1 评论 -
Hive 优化实践 -- 执行计划
目录数据准备执行计划问题分析SQL优化最后小结数据准备-- 创建数据库create database tuning;use tuning;-- 创建表create table if not exists tuning.student_txt(s_no string comment '学号',s_name string comment '姓名',s_birth string comment '出生日期',s_age int comment '年龄',s_sex string comme原创 2021-05-08 17:23:41 · 962 阅读 · 0 评论 -
Hive 中容易忽略的点
1.查看所有设置hive (bigdata)>set;2.查看HDFS 路径信息hive (bigdata)> dfs -ls /user/hive/warehouse;内部表转外部表alter table t1 set tblproperties('EXTERNAL'='TRUE');4.查看分区信息hive (bigdata)> show partitions ods_score;5.增加分区alter table t3 add partition(dt=原创 2021-04-27 23:04:07 · 359 阅读 · 0 评论 -
Hive小文件合并与数据压缩
Hive仓库表数据最终是存储在HDFS上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。但是在数据仓库中,越是上层的表汇总程度就越高,数据量也就越小,而且这些表通常会有日期分区,随着时间的推移,HDFS的文件数目就会逐步增加。小文件合并与数据压缩一、小文件带来的问题二、Hive小文件产生的原因三、配置Map输入合并四、配置hive结果合并五、压缩文件的处理六、使用HAR归档文件七、文件格式和压缩TextFileSequenceFil.原创 2021-03-06 11:28:12 · 812 阅读 · 0 评论 -
Hive 自定义UDF函数实现日期格式化和字段AES加密
Hive 自定义UDF函数实现日期格式化和字段AES加密自定义日期格式化UDF函数自定义字段AES加密函数函数的临时注册和永久注册测试UDF函数使用项目pom.xml自定义日期格式化UDF函数首先自定义日期解析转换的工具类import org.apache.commons.lang3.StringUtils;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calend.原创 2021-01-07 21:50:21 · 1275 阅读 · 2 评论 -
IDEA 导入Hive源码并编译
编译源码下载Hive源码:http://archive.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.16.2-src.tar.gz编译Hive源码(切记不要idea里面执行命令):mvn clean package -DskipTests=true -Phadoop-2mvn clean package -DskipTests=true -Phadoo...原创 2020-11-30 21:32:28 · 1681 阅读 · 5 评论 -
企业大数据平台仓库架构建设思路
随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据的产生,越来越多的企业开始在大数据平台下进行数据处理。本文作者主要从总体思路、模型设计、数据架构、数据治理四个方面介绍了如何利用大数据平台的特性,构建更贴合大数据应用的数据仓库。随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化、半结构化、非结构化数据不断地产生。新环境下的数据应用呈现业务变化快、数据来源多、系统耦合多、应用深度深等特征。那么基于这些特征,该如何构建数据仓库呢?我认为应该从稳定、可信、丰富、透明.转载 2020-07-11 10:49:42 · 440 阅读 · 0 评论 -
Hive 部分业务数据指标计算
需求:统计连续出现三次的数据的id文件名称:series.txt数据格式如下:id,number1,12,13,14,25,16,27,28,39,310,311,312,4思路:可以做一个自连接,使用笛卡尔积的方式来实现CREATE TABLE series(id int ,number int )ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' set hive.fetch.task.conversion=mo原创 2020-07-07 21:18:33 · 912 阅读 · 0 评论 -
Hadoop之存储格式
Hive中不同存储格式的使用Hive Wiki 中 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL在定义SQL语句之后,可以通过 [STORED AS file_format] 进行制定存储格式file_format: : SEQUENCEFILE | TEXTFILE -- (Defau...原创 2020-05-20 09:16:31 · 698 阅读 · 0 评论 -
Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
Hive中运行SQL出现如下的错误:Ended Job = job_1586933151013_0001 with errorsError during job, obtaining debugging information…FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapR...原创 2020-04-15 15:36:45 · 10447 阅读 · 2 评论 -
Hive中的窗口分析函数
环境准备准备工作:创建表:CREATE EXTERNAL TABLE cookie_pv ( cookieid string, createtime string, pv INT ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' 加载数据:load data local inpath '/home/hadoop/data...原创 2020-02-23 14:54:25 · 215 阅读 · 0 评论 -
Hive中常用函数
get_json_object (解析json)get_json_object(param1,"$.param2")param1:需要被解析的json字段param2:数组就用 [0,1,2…] 0,1,2是数组对应的元素,遇若jsonObject直接用 ".key"取出想要获取的value。处理jsonArray(json数组),如person表的pjson字段有数据:[{"n...原创 2019-11-02 16:23:02 · 777 阅读 · 0 评论 -
Hive 中的OVER函数解析
over()over() 函数在Hive中运用广泛,通常搭配row_number() ,min(),max(),sum()来使用,总结下over函数划定窗口的范围idnamenum1a12b33a54c95b3over() 此时每一行的窗口都是所有的行SELECT id,name,num,sum(num) over...转载 2019-10-31 10:43:27 · 2440 阅读 · 0 评论 -
HiveSQL面试题
1.我们有如下的用户访问数据userId visitDate visitCountu01 2017/1/21 5u02 2017/1/23 6u03 2017/1/22 8u04 2017/1/20 3u01 2017/1/23 6u01 2017/2/21 8u02 2017/1/23 6u01 2017/2/22 4要求使用...原创 2019-10-31 09:59:48 · 8591 阅读 · 5 评论 -
Spark整合Hive
Hive数据库Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的 一点是,如果要在Spark SQL中包含Hive的库,并不需要事先安装Hive。一般来说,最好还是在编译Spark SQL时...原创 2019-09-18 22:01:34 · 493 阅读 · 0 评论 -
Hive 中设置数据压缩
hive当中处理的数据,一般都需要经过压缩,前期我们在用hadoop的时候,已经配置过hadoop的压缩,我们这里的hive也是一样的可以使用压缩来节省我们的MR处理的网络带宽。 压缩格式 工具 算法 文件扩展名 是否可切分 DEFAULT 无 ...原创 2019-08-04 20:29:30 · 1221 阅读 · 0 评论 -
Hive 自定义UDF函数
Hive的内置函数比较多,详见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF当Hive提供的内置函数无法满足业务处理需要时,此时就可以考虑使用用户自定义函数。根据用户自定义函数类别分为以下三种:UDF(User-Defined-Function)一进一出UDAF(User-Defined A...原创 2019-08-04 20:10:13 · 234 阅读 · 0 评论