![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
11号车厢
生活就是熬
展开
-
Hive入门和安装部署
1、Hive简介基于SQL on Hadoop的有Hive、SparkSQL、Phonix(主要是用于Hbase上的查询,也支持SparkSQL等)。Hive是Apache的一个开源顶级的项目,官网:http://hive.apache.org/ 源码:https://github.com/apache/hiveHive是数据仓库,由Facebook贡献,使用SQL进行大数据的处理和分...原创 2019-08-06 07:30:40 · 120 阅读 · 0 评论 -
Hive常见压缩格式和性能对比
压缩能够减少存储磁盘空间,降低网络IO和磁盘IO,加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。虽然由以上的好处,但是由于使用数据时,需要先将数据解压,加重了CPU负荷。根据我们的实际工作场景,我们要选择合适的压缩格式。常见的压缩格式如下:下面是一份源数据1.4G的文件,各类压缩格式的比率和时间对比数据压缩后大小:压缩和解压时间:从上面对比可以看出:在压缩数据比...原创 2019-08-12 06:05:34 · 2520 阅读 · 0 评论 -
Hive压缩格式配置
1、文件压缩配置实现首先你的Hadoop是需要编译安装的,参考博客:Hadoop源码编译https://blog.csdn.net/greenplum_xiaofan/article/details/95466703检查Hadoop支持的压缩格式:[hadoop@vm01 hadoop-2.6.0-cdh5.7.0]$ pwd/home/hadoop/source/hadoop-2.6....原创 2019-08-12 05:53:42 · 946 阅读 · 0 评论 -
Hive常见的存储文件格式
1、Hive常见的文件格式SEQUENCEFILE:生产中绝对不会用,k-v格式,比源文本格式占用磁盘更多TEXTFILE:生产中用的多,行式存储RCFILE:生产中用的少,行列混合存储,ORC是他得升级版ORC:生产中最常用,列式存储PARQUET:生产中最常用,列式存储AVRO:生产中几乎不用,不用考虑JSONFILE:生产中几乎不用,不用考虑INPUTFORMAT:生产中几...原创 2019-08-12 06:06:32 · 249 阅读 · 0 评论 -
Hive之DDL详解
官网:http://hive.apache.org1、Hive的DDL对于DML语言,我们不讲,因为实际工作Hive1.x版本 DML性能太差,基本是用Spark实现;虽然现在Hive2.x支持Spark引擎,但是使用的人还是比较少。https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDLHiveQL DDL:...原创 2019-08-12 07:07:25 · 412 阅读 · 0 评论 -
Hive分区表
1、分区表分区表可以使用partition BY子句创建。一个表可以有一个或多个分区列,并且为分区列中的每个不同值组合创建一个单独的数据目录。此外,表或分区可以使用按列聚集的方式进行分组,并且可以通过按列排序在该桶中对数据进行排序。这可以提高某些查询的性能。2、创建分区表静态分区#将订单按月分进行分区create table order_partition(order_no strin...原创 2019-08-12 07:13:44 · 140 阅读 · 0 评论 -
Hive特殊的数据类型:Array,Map,Struct
1、Array#创建一张包含array字段的表,array字段的分割符采用的是逗号create table hive_array(name string,work_locations array<string>)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'COLLECTION ITEMS TERMINATED BY ',';...原创 2019-08-12 07:18:41 · 392 阅读 · 0 评论 -
Hive元数据库详解
文章目录1、概述2、启用mysql管理3、通过mysql查看basic01数据库4、version(存储Hive版本的元数据表)5、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS)6、Hive表和视图相关的元数据表7、Hive文件存储信息相关的元数据表8、Hive表字段相关的元数据表9、Hive表分区相关的元数据表10、其他不常用的元数据表11、最后我们总结下他们之间的关系图...转载 2019-08-12 07:28:51 · 1590 阅读 · 0 评论