Hive
文章平均质量分 81
野狼e族
忙是一种好事
展开
-
Hive 拉链表
想总结一下拉链表 的使用,但今天太懒不想手写,看到一篇思路清晰非常不错的文章,转载一下,供大家阅读。。。背景拉链表是一种数据模型,主要是针对数据仓库设计中表存储数据的方式而定义的;顾名思义,所谓拉链表,就是记录历史。记录一个事务从开始一直到当前状态的所有变化的信息。拉链表可以避免按每一天存储所有记录造成的海量存储问题,同时也是处理缓慢变化数据(SCD2)的一种常见方式。应用场...转载 2020-04-23 11:16:13 · 495 阅读 · 0 评论 -
Hive 分区(Partition)
Hive 分区(Partition)一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitioned by,详见表创建的语法结构。二、技术细节...原创 2018-05-24 10:23:35 · 963 阅读 · 0 评论 -
Hive 自定义函数编程
Hive 自定义函数编程Hive中的自定义函数简介(1) 在类中创建自定义函数。自定义UDF需要继承'org.apache.hadoop.hive.ql.exec.UDF',实现evaluate函数,evaluate函数支持重载。package demo.udf;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.i...原创 2018-05-24 10:23:10 · 213 阅读 · 0 评论 -
Hive 语法
Hive 语法【0】数据类型 Array 类型 -- 创建学生表,保存这个学生所有课程的成绩-- 数据结构为: {1,Tom,[80,90,95]}create table student(sid int,sname string,grade array<float>) Map 类型-- 创建学生表,保存这个学生指定课程的成绩-- 数据结构为: {1,Tom,<'数...原创 2018-05-24 10:22:40 · 278 阅读 · 0 评论 -
Hadoop Hive 搭建
Hadoop Hive 搭建一、说明Hive底层的执行引擎有:MapReduce、Tez、Spark Hive on MapReduce Hive on Tez Hive on Spark压缩:GZIP、LZO、Snappy、BZIP2..存储:TextFile、SequenceFile、RCFile、ORC、ParquetUDF:自定义函数二、Hive环境搭建 注意事项:...原创 2018-05-24 10:22:10 · 660 阅读 · 0 评论 -
kafKa 安装
依赖于zookeeper环境,需要安装zookeeper 一、安装zookeeper (1)下载:http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.7.0.tar.gz (2) 解压 zookeeper-3.4.6.tar.gz 到 /www/instl/zookeeper/zookeeper-3.4.6.tar....原创 2018-05-24 10:17:02 · 536 阅读 · 0 评论 -
Hive中Join的原理和机制
Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、Sh...原创 2019-09-29 13:44:09 · 1731 阅读 · 0 评论