![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
张超_
这个作者很懒,什么都没留下…
展开
-
Hive-架构原理
文章目录什么是HiveHive架构Hive使用场景Hive的执行流程SQL转化成MapReduce过程 推荐博客:https://blog.csdn.net/qq_36932624/article/details/81702405 什么是Hive Hive是由Facebook开源用于解决海量结构化日志的数据统计;Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射 成一张表,并提供类SQL查询功能,底层计算引擎默认为Hadoop的MapReduce(本质是将sql转化成mapreduce原创 2020-09-08 18:47:58 · 293 阅读 · 0 评论 -
Hive-- 自定义函数介绍(UDF/UDAF/UDTF).md
文章目录UDF函数简介UDAF函数简介UDTF函数简介UDF函数实现1 实现步骤2 代码实现UDAF实现1:实现步骤UDTF UDF函数简介 特点:一进一出,类似与substring、abs等 UDAF函数简介 特点:n进一出,类似于count,sum,avg UDTF函数简介 特点:1进n出,此种函数实现较为复杂,往往被lateral view explode+udf 替代。 UDF函数实现 1 实现步骤 自定义一个java类 继承UDF类 重写evaluate方法 打包类所在项目成一个all-in-原创 2020-09-08 18:40:20 · 259 阅读 · 0 评论 -
Hive-动态分区
Hive动态分区参数配置 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。 使用动态分区表必须配置的参数 set hive.exec.dynamic.partition =true(默认false),表示开启动态分区功能; set hive.exec.dynamic.partition.mode .原创 2020-09-08 18:00:50 · 899 阅读 · 0 评论 -
Hive 数据倾斜的优化
一:Hive数据倾斜产生的原因和解决方案 1.1:原因: 数据倾斜产生的原因是有与数据的key的分布严重不均导致的,少部分Reduce Job接收了大部分数据。所以业务逻辑、数据量、代码、以及集群配置都会导致数据倾斜。 2.2 解决方案 1:参数优化 set hive.map.aggr=true (在map中会做部分聚集操作,效率更高但需要更多的内存) set hive.groupby.skewindata=true;(数据倾斜时负载均衡,当选项设定为true,生成的查询计划会有两个MRJob。第一个MRJ原创 2020-08-12 10:07:18 · 261 阅读 · 0 评论 -
数据仓库-拉链表+增量表抽取的实现
背景: 业务部门提了用户分层的需求,其中有一点,业务放需要我们数仓提供历史数据,并且业务库里的部分表还没有数据更新时间字段。所以本篇文章主要解决两个问题 1:问题一 怎么再HIVE里实现拉链表 2:问题二 怎么再没有数据更新时间字段的情况下实现增量更新(个人认为这个方式也是一种通用的方式) 一:拉链表是什么?使用场景?实现原理? 1:是什么? 拉链表是一张记录事务历史变化的表,记录一个事务从开...原创 2020-04-23 18:44:54 · 1725 阅读 · 0 评论 -
HIVE 的窗口函数理论与实践
写自定义目录标题欢迎使用Markdown编辑器二 实践数据准备1: LEAD与 LAG 、first_value3: first_value 与Last_value新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少...原创 2020-04-18 18:54:30 · 283 阅读 · 0 评论 -
第一、第二、第三范式理解
第一、第二、第三范式理解一 规范化之前二 规范化:第一范式新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 一 ...原创 2019-04-21 23:14:57 · 333 阅读 · 0 评论 -
HIVE 动态分区表详解
备注:写一点关于动态分区表的东西(参见:https://blog.csdn.net/qq_26442553/article/details/80382174) 一 创建分区表 set hive.exec.dynamic.partition=true;原创 2019-05-08 15:28:46 · 866 阅读 · 0 评论 -
Spark Thrift Server 解放数据开发,开发计算资源的里利器
0x001 Spark Thrift Server 是什么 Spark Thrift Server 是一个jdbc和odbc服务,底层依赖的是hive Server2。 0X002 Spark Thrift Sever 带来的价值 现在部分公司情况, 大数据部门更像是一个报表开发部门,日常工作就是开发报表,一个完了接着下一个。整个模式的架构如下: 关系数据库=》 大数据平台 =》关系数据库...原创 2019-05-24 12:00:34 · 781 阅读 · 0 评论