![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
beautiful_huang
万般皆苦 唯有自度
展开
-
【Hive】数仓建设之拉链表
全文由下面几个部分组成:先分享一下拉链表的用途、什么是拉链表。通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。举一个具体的应用场景,来设计并实现一份拉链表,最后并通过一些例子说明如何使用我们设计的这张表(因为现在Hive的大规模使用,我们会以Hive场景下的设计为例)。分析一下拉链表的优缺点,并对前面的提到的一些内容进行补充说明,比如说拉链表和流水表的区别。...原创 2020-05-06 10:14:07 · 552 阅读 · 0 评论 -
【Hive】四种排序方式
Hive中4种排序的区别共有四种排序:order by,sort by ,distribute by,cluster byorder by全局排序;对输入的数据做排序,故此只有一个reducer(多个reducer无法保证全局有序);只有一个reducer,会导致当输入规模较大时,需要较长的计算时间;sort by非全局排序;在数据进入reducer前完成排序;当mapred.r...原创 2020-02-24 14:09:42 · 2066 阅读 · 0 评论 -
【Hive】Hive的三种Join方式
Hive中的join可分为三种,分别是Map-join、Reduce-join和SMB Join,本文简单介绍这三种join的原理和机制。1.Map-join MapJoin的主要意思就是,当链接的两个表是一个比较小的表和一个特别大的表的时候,我们把比较小的table直接放到内存中去,然后再对比较大的表格进行map操作。join就发生在map操作的时候,每当扫描一个大的table中的数据...原创 2020-02-03 16:31:40 · 1452 阅读 · 1 评论 -
【Hive】hive侧视图lateral view和explode用法-简解
explode用法select explode(split("010029,010030,1000001,财富_顶部轮播,财富banner,财富货币资金产品,财富快捷,财富-稳健组合楼层,财富-稳健组合楼层头条,财富-稳健组合推荐产品,财富页三图,财富-专业投资楼层,财富-专业投资推荐产品,首页登录banner,首页登录明星,首页登录头条,首页登录推荐产品,首页-浮层广告,首页快捷,首页明星服务...原创 2020-02-03 10:26:41 · 319 阅读 · 0 评论 -
Hive 安装部署详解
文章目录一 、Apache hive 简介1.1 什么是hive1.2 为什么使用Hive二、Apache hive的架构2.1 hive的组件1)用户接口:2)元数据存储:2.2 hive和hadoop的关系2.3 hive与传统数据库对比2.4 hive的数据模型三、hive安装配置1、mysql安装2、解压、环境变量配置4、引入 mysql 连接 jar包5、初始化 删除hadoop安全模...原创 2019-12-15 12:00:31 · 270 阅读 · 0 评论 -
Hive 数据类型详解
1、基本数据类型对于Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,不过它不能声明其中最多能存储多少个字符,理论上它可以存储2GB的字符数。2、集合数据类型Hive有三种复杂数据类型ARRAY、MAP 和 STRUCT。ARRAY和MAP与Java中的Array和Map类似,而STRUCT与C语言中的Struct类似,它封装了一个命名字段集合,复杂数...原创 2019-12-15 12:05:31 · 343 阅读 · 0 评论 -
Hive DDL数据定义语言详解
文章目录一 、Apache hive 简介1.1 什么是hive1.2 为什么使用Hive二、Apache hive的架构2.1 hive的组件1)用户接口:2)元数据存储:2.2 hive和hadoop的关系2.3 hive与传统数据库对比2.4 hive的数据模型三、hive安装配置1、mysql安装2、解压、环境变量配置4、引入 mysql 连接 jar包5、格式化 删除hadoop安全模...原创 2019-12-15 12:47:43 · 389 阅读 · 0 评论 -
Hive DML 数据操纵语言详解
文章目录一、数据导入1.1 向表中装载数据(Load)1.2.实操案例1.3 通过查询语句向表中插入数据(Insert)1.4 查询语句中创建表并加载数据(As Select)1.5创建表时通过Location指定加载数据路径1.6 Import数据到指定Hive表中二、数据导出三、清除表中数据(Truncate)一、数据导入1.1 向表中装载数据(Load)1.语法hive> lo...原创 2019-12-15 14:12:52 · 139 阅读 · 0 评论 -
Hive 查询之排序
文章目录一、查询语句注意事项二、排序1、全局排序( order by)2、Sort By3、Distribute By分区排序(Distribute By)4、Cluster By一、查询语句注意事项1、where子句中不能使用字段别名2、like和rlike1)使用LIKE运算选择类似的值2)选择条件可以包含字符或数字:% 代表零个或多个字符(任意个字符)。_ 代表一个字符。3)...原创 2019-12-15 16:14:22 · 693 阅读 · 0 评论 -
Hive 函数集合(全)
文章目录一、Hive的内嵌函数二、数学函数三、字符函数四、收集函数五、转换函数:六、日期函数:七、条件函数:八、聚合函数:九、表生成函数:一、Hive的内嵌函数二、数学函数round(四舍五入):mysql> select round(45.3456,2),round(6.56787,-1);+------------------+-------------------+| r...原创 2019-12-15 17:01:14 · 1733 阅读 · 1 评论 -
Hive 窗口函数
简介本文主要介绍hive中的窗口函数.hive中的窗口函数和sql中的窗口函数相类似,都是用来做一些数据分析类的工作,一般用于olap分析(在线分析处理)。概念我们都知道在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示聚集后的数据,这...原创 2019-12-15 17:45:55 · 186 阅读 · 0 评论 -
Hive 下的 Apache Zeppelin 集成部署
文章目录一、Zeppelin简介Zeppelin特性Apache Spark 集成数据可视化二、Zeppelin的安装部署使用Beeline连接hive测试下载 Zeppelin修改配置文件启动zeppelin作为大数据研究分析,我越发觉得有必要能有一款快速上手,能够适合单一数据处理、但后端处理语言繁多的场景相关的开源工具。最近我找到了一款Apache Zeppelin,下面是我初步实战初步收获...原创 2019-12-17 20:11:43 · 322 阅读 · 0 评论 -
Hive 文件格式详解
hive中的 file_formatSEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多TEXTFILE:生产中用的多,行式存储RCFILE:生产中用的少,行列混合存储,OCR是他得升级版ORC:生产中最常用,列式存储PARQUET:生产中最常用,列式存储AVRO:生产中几乎不用,不用考虑JSONFILE:生产中几乎不用,不用考虑INPUTFORMAT...原创 2019-12-26 17:56:31 · 996 阅读 · 0 评论