![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 69
Joker_Jiang3
码畜
展开
-
Hive优化
Hive优化一、大表Join大表1、空KEY过滤有时 join 超时是因为某些 key 对应的数据太多,而相同 key 对应的数据都会发送到相同 的 reducer 上,从而导致内存不够。此时我们应该仔细分析这些异常的 key,很多情况下, 这些 key 对应的数据是异常数据,我们需要在 SQL 语句中进行过滤。例如 key 对应的字段为 空,操作如下:创建原始数据空 id 表// 创建空 id 表create table nullidtable(id bigint, t bigint, uid原创 2021-07-23 00:02:04 · 169 阅读 · 0 评论 -
Hive详解及常用操作命令
Hive常用操作命令一、 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159DOUBLEdouble双精原创 2021-07-23 00:00:46 · 2567 阅读 · 4 评论 -
Hive Load数据进分桶表报错
Hive Load数据进分桶表报错一、报错如下:hive (test)> load data local inpath '/opt/modules/testdata/hive/bigtable' into table bigtable_buck2;FAILED: SemanticException Please load into an intermediate table and use 'insert... select' to allow Hive to enforce bucketin原创 2021-07-22 23:56:12 · 1056 阅读 · 0 评论 -
Hive数据压缩和存储
Hive数据压缩和存储一、Hadoop压缩配置1、MR支持的压缩编码压缩格式算法文件扩展名是否可切分DEFLATEDEFLATE.deflate否GzipDEFLATE.gz否bzip2bzip2.bz2是LZOLZO.lzo是SnappySnappy.snappy否为了支持多种压缩/解压缩算法,Hadoop 引入了编码/解码器,如下表所示:压缩格式对应的编码/解码器DEFLATEorg.apa原创 2021-07-22 23:54:23 · 396 阅读 · 0 评论 -
hive练习
Hive练习部门信息表create table if not exists dept(deptno int,dname string, loc int)row format delimited fields terminated by ',';员工信息表create table if not exists emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,原创 2021-07-22 23:48:44 · 1320 阅读 · 3 评论 -
Hive安装Tez引擎
Hive安装Tez引擎一、前置准备要先安装好Hadoop(伪分布式或分布式集群)和Hive。简单了解用Hive直接编写MR程序,假设有4个有依赖关系的MR作业,上图中,蓝色代表MapTask,绿色代表ReduceTask,云状表示中间结果持久化到磁盘Tez可以将多个有依赖的作业转换为一个作业(DAG),这样只需要写一次HDFS,且中间节点较少,从而大大提升作业的计算性能二、更换Tez引擎1、下载并解压下载所需版本的 tez 依赖包,这里我下载版本为 apache-tez-0.9.2-bin原创 2021-05-25 22:57:21 · 309 阅读 · 0 评论 -
Hive安装及配置Mysql元数据库
Hive安装及配置Mysql元数据库一、Hive安装配置1、前置准备安装Hive前要先把Hadoop(伪分布式或集群模式)安装好,因为Hive是依赖于Hadoop运行的2.安装Hive下载所需版本的 Hive , 这里我下载版本为 apache-hive-2.3.0-bin.tar.gz。下载地址: http://archive.apache.org/dist/hive/解压及重命名# 解压到指定目录[jiang@hadoop01 software]$ tar -zxvf apache-hi原创 2021-05-25 22:47:37 · 1124 阅读 · 0 评论 -
hive自定义函数
hive自定义函数一、自定义UDF函数0、需求:自定义一个 UDF 实现计算给定字符串的长度,例如:hive(default)> select my_len("abcd"); 41、创建一个Maven工程导入依赖:<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId>原创 2021-05-12 22:17:48 · 148 阅读 · 0 评论 -
Hive常用函数
Hive常用函数1、常用日期函数unix_timestamp ()::返回当前或指定日期的时间戳select unix_timestamp(); # 返回当前时间戳select unix_timestamp('2021-05-10','yy-MM-dd'); # 返回指定日期的时间戳from_unixtime():将日期转为时间戳select from_unixtime(1620604800); # 默认有时分秒#结果:2021-05-10 00:00:00select from_unix原创 2021-05-12 22:01:05 · 246 阅读 · 0 评论