2020年06月_卜塔

11月 07月 06月 04月 03月 02月 01月

原创【Hive】性能调优 - EXPLAIN

Hive版本: hive-1.1.0-cdh5.14.2用户提交HiveQL查询后，Hive会把查询语句转换为MapReduce作业。Hive会自动完成整个执行过程，一般情况下，我们并不用知道内部是如何运行的。但当查询遇到性能瓶颈时，就需要对HiveQL进行调优。EXPLAIN是调优时查看执行计划的工具，执行计划可以清晰的告诉我们查询的stage、map、reduce等阶段的信息。EXPLAIN的使用非常简单，只需要在正常HiveQL前面加上就可以了。此时的HiveQL不会真正执行作业，只是基于.

2020-06-30 08:01:28 900

原创【Hive】压缩格式

常见压缩格式压缩方式压缩比压缩速度解压缩速度是否可分割gzip13.4%21 MB/s118 MB/s否bzip213.2%2.4MB/s9.5MB/s是lzo20.5%135 MB/s410 MB/s是snappy22.2%172 MB/s409 MB/s否压缩格式对应的编/解码器压缩格式对应的编/解码器DEFLATEorg.apache.hadoop.io.compress.DefaultCode

2020-06-29 06:41:39 4736

原创【Hive】hive表的文件存储格式

在Hive中，文件的存储格式主要有：TEXTFILE、SEQUENCEFILE、ORC、PARQUET。其中，TEXTFILE、SEQUENCEFILE是基于行存储，ORC、PARQUET基于列存储。实际生产环境，使用ORC和PARQUET的情况比较多。1. 行存储和列存储上图中左边为逻辑表，右上为行存储，右下为列存储。当查询结果为一整行的时候，行存储效率会高一些；当查询表中某几列时，列存储的效率会更高。在对数据的压缩方面，列存储比行存储更有优势，所以列存储占用空间相对小一些。2. TEXT

2020-06-26 18:53:18 3041

原创【Hive】表生成(Table-Generating)函数

Hive版本: hive-1.1.0-cdh5.14.21. 列转行函数：explode(1) 输入类型为array语法：explode(ARRAY a)返回值：T描述：展开array，其中每个元素占一行0: jdbc:hive2://node03:10000> select explode(array('A', 'B', 'C'));+------+--+| col |+------+--+| A || B || C |+------+--+(2).

2020-06-26 10:52:51 489

原创【Hive】字符串函数

Hive版本: hive-1.1.0-cdh5.14.21. 首字符转ascii码函数：ascii语法：ascii(string str)返回值：int描述：返回字符串str首字符的ascii编码0: jdbc:hive2://node03:10000> select ascii('hello') as col1, ascii('hehe') as col2, ascii('Hi') as col3;+-------+-------+-------+--+| col1 | col2.

2020-06-21 19:45:32 1082

原创【Hive】条件函数

Hive版本: hive-1.1.0-cdh5.14.21. if函数语法：if(boolean testCondition, T valueTrue, T valueFalseOrNull)返回值: T描述：如果testCondition为true，返回valueTrue，否则返回valueFalseOrNull0: jdbc:hive2://node03:10000> select if(1=2, 'TrueValue', 'FalseOrNull');+-------------.

2020-06-20 23:52:05 637

原创【Hive】日期函数

1. Unix时间戳转日期函数名称：from_unixtime(bigint unixtime[, string format])返回值：string描述: Unix时间戳转换为日期格式0: jdbc:hive2://node03:10000> select from_unixtime(1237573801, 'yyyy-MM-dd HH:mm:ss') as time_string;+----------------------+--+| time_string |+

2020-06-20 19:26:27 1368

原创【Hive】集合函数

函数名称返回值类型描述size(Map<K,V>)int返回map类型数据的长度size(Array)int返回array类型数据的长度map_keys(Map<K,V>)array返回map类型数据的键map_values(Map<K,V>)array返回map类型数据的值array_contains(Array, value)boolean判断value是否存在于array中sort_array(...

2020-06-20 10:53:06 525

原创【Hive】动态分区插入

动态分区是指在插入数据时，无需指定分区键值，系统根据插入的数据，自动分配分区。动态分区需注意以下几点:需有一个同构的普通表做为源表；分区键值和源表字段之间是根据位置来判断的，而不是根据命名来匹配的；动态分区默认是关闭的，使用前要设置相关参数；下面是一个动态分区的例子:# 创建分区表和普通表# 上传数据文件到HDFS# 普通表导入数据# 使用动态分区插入数据到分区表中...

2020-06-18 21:51:38 976

原创【Hive】Hive分区表

分区作为一种提高数据操作灵活性的手段，被广泛应用于关系型数据库中。在Hive中我们同样可以采用分区的方式来提高数据操作效率，和关系型数据库（如Oracle）所不同，Hive的分区表既可以是内部表，也可以是外部表。本篇文章主要介绍如何在Hive中创建分区表，外部表上的DDL操作，以及使用外部表的注意事项。1. 创建分区表1.1 创建内部分区表create table myhive.test_internal(id int) partitioned by (date string) row format

2020-06-15 23:20:58 480

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Just Do IT