Hive 基础(2):库、表、字段、交互式查询的基本操作

1、命令行操作 (1)打印查询头,需要显示设置: set hive.cli.print.header=true; (2)加"--",其后的都被认为是注释,但 CLI 不解析注释。带有注释的文件只能通过这种方式执行: hive -f script_name (...

2018-09-19 10:58:02

阅读数 156

评论数 0

Hive 基础(1):分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/...

2018-09-19 10:57:50

阅读数 19

评论数 0

数据仓库中的SQL性能优化 - Hive篇

一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR job)的优...

2018-09-19 10:57:45

阅读数 27

评论数 0

Hive JOIN使用详解

Hive是基于Hadoop平台的,它提供了类似SQL一样的查询语言HQL。有了Hive,如果使用过SQL语言,并且不理解Hadoop MapReduce运行原理,也就无法通过编程来实现MR,但是你仍然可以很容易地编写出特定查询分析的HQL语句,通过使用类似SQL的语法,将HQL查询语句提交Hive...

2018-09-19 10:57:38

阅读数 113

评论数 0

深入浅出学Hive:Hive高级编程

目录: 初始Hive Hive安装与配置 Hive内建操作符与函数开发 Hive JDBC Hive参数 Hive高级编程 Hive QL Hive Shell基本操作 Hive优化 Hive体系结构 Hive原理       第一部分:产生背景 产生背景 •为了...

2018-09-18 10:10:35

阅读数 322

评论数 0

深入浅出学Hive:Hive优化

目录: 初始Hive Hive安装与配置 Hive内建操作符与函数开发 Hive JDBC Hive参数 Hive高级编程 Hive QL Hive Shell基本操作 Hive优化 Hive体系结构 Hive原理       第一部分:Hadoop 计算框架的特性 ...

2018-09-18 10:10:30

阅读数 332

评论数 0

深入浅出学Hive:Hive内建操作符与函数开发

目录: 初始Hive Hive安装与配置 Hive内建操作符与函数开发 Hive JDBC Hive参数 Hive高级编程 Hive QL Hive Shell基本操作 Hive优化 Hive体系结构 Hive原理       第一部分:关系运算 Hive支持的关系...

2018-09-18 10:10:23

阅读数 327

评论数 0

Hive分析窗口函数系列文章

分析窗口函数应用场景: (1)用于分区排序 (2)动态Group By (3)Top N (4)累计计算 (5)层次查询   Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将...

2018-09-18 10:10:07

阅读数 21

评论数 0

hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive...

2018-09-18 10:09:59

阅读数 38

评论数 0

Hive自定义UDF UDAF UDTF

Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法。Hive将数据组织为表,这就使得HDFS上的数据有了结构,元数据即表的模式,都存储在名为meta...

2018-09-18 10:09:50

阅读数 42

评论数 0

达观数据分析平台架构和Hive实践

问题导读: 1.Hive与一般SQL有什么区别? 2.达观数据分析平台架构是怎么样的? 3.达观怎么优化数据分析平台的? 1 Hive原理 Hadoop是一个流行的开源框架,用来存储和处理商用硬件上的大规模数据集。对于HDFS上的海量日志而言,编写Mapreduce程序代码对于类似数据仓库的需...

2018-09-17 13:29:10

阅读数 134

评论数 0

深入浅出学Hive:Hive体系结构

第一部分:概念  概念 •用户接口:用户访问Hive的入口 •元数据:Hive的用户信息与表的MetaData •解释器:分析翻译HQL的组件 •编译器:编译HQL的组件 •优化器:优化HQL的组件 第二部分:Hive架构与基本组成 架构图 基本组成 •用户接口,包括 CL...

2018-09-17 13:29:01

阅读数 44

评论数 0

深入浅出学Hive:Hive参数

第一部分:Hive 参数 hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000  hive.exec.dynamic.partition •说明:是否为自动分区 •默认值:false hi...

2018-09-17 13:28:50

阅读数 48

评论数 0

深入浅出学Hive:Hive QL

第一部分:DDL DDL •建表 •删除表 •修改表结构 •创建/删除视图 •创建数据库 •显示命令 建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name    [(col_name data_type [COMMENT co...

2018-09-17 13:28:45

阅读数 137

评论数 0

Hadoop Hive sql语法详解

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容...

2018-09-17 13:28:39

阅读数 477

评论数 0

hive性能优化指南

1.概述   继续《hive性能优化指南--初级篇》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍   首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据...

2018-09-17 13:28:33

阅读数 53

评论数 0

Hive中JOIN的使用入门

Hive中join的用法 Hive中Join的通常使用有以下几种: inner join 等值连接 left join  right join  full join left semi join cross join(笛卡尔积) mulitiple(一般来说是多个表进行join) ...

2018-09-07 14:59:30

阅读数 68

评论数 0

spark和HSQL的连接join方式

本文主要介绍spark join相关操作。 讲述spark连接相关的三个方法join,left-outer-join,right-outer-join,在这之前,我们用hiveSQL先跑出了结果以方便进行对比。 我们以实例来进行说明。我的实现步骤记录如下。   1、数据准备 2、HSQL...

2018-09-03 09:57:14

阅读数 292

评论数 0

Hive数据类型

1. Hive数据类型 Hive支持原始数据类型和复杂类型,原始类型包括数值型,Boolean,字符串,时间戳。复杂类型包括数组,map,struct。下面是Hive数据类型的一个总结: 分类 类型 描述 字面量示例 原始类型 BOOLEAN true/fal...

2018-08-21 13:19:10

阅读数 1184

评论数 0

提示
确定要删除当前文章?
取消 删除