![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hive
谦卑t
终身学习
展开
-
如何在 Apache Hive 中解析 Json 数组
文章目录1 问题2 使用 Hive 自带的函数解析 Json 数组3 自定义函数解析 Json 数组问题我们都知道,Hive 内部提供了大量的内置函数用于处理各种类型的需求,参见官方文档:Hive Operators and User-Defined Functions (UDFs)。我们从这些内置的 UDF 可以看到两个用于解析 Json 的函数:get_json_object 和 json_...转载 2019-02-23 12:02:18 · 412 阅读 · 0 评论 -
【图文详细 】数据倾斜
1、什么是数据倾斜?由于数据分配不均匀,造成数据大量集中到一点,造成数据热点 2、Hadoop框架的特点 A、不怕数据大,怕数据倾斜 B、Jobs 数比较多的作业运行效率相对比较低,如子查询比较多 C、 sum,count,max,min 等聚集函数,通常不会有数据倾斜问题 3、主要表现任务进度长时间维持在99%或者100%附近,查看任务监控页面,...原创 2018-12-03 19:17:44 · 543 阅读 · 1 评论 -
【图文详细 】Hive shell操作
1、Hive 命令行这是 hive 支持的一些命令: Command Description quit Use quit or exit to leave the interactive shell. set key=value Use this to set value of particular configuration variable. On...原创 2018-12-03 19:12:16 · 362 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之 合理利用文件存储格式
创建表时,尽量使用 orc、parquet 这些列式存储格式,因为列式存储的表,每一列的数据在 物理上是存储在一起的,Hive 查询时会只遍历需要列数据,大大减少处理的数据量。 ...原创 2018-12-04 23:54:20 · 138 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之 Group By 优化
原创 2018-12-04 23:53:35 · 6249 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之 Join优化
原创 2018-12-04 23:53:00 · 256 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之合理利用分区:Partition
原创 2018-12-04 23:51:42 · 904 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之合理利用分桶:Bucketing 和 Sampling
原创 2018-12-04 23:50:55 · 721 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之 合并 MapReduce 操作
原创 2018-12-04 23:50:13 · 280 阅读 · 0 评论 -
【图文详细 】Hive 执行过程概述
Hive 将 HQL 转换成一组操作符(Operator),比如 GroupByOperator, JoinOperator 等 操作符 Operator 是 Hive 的最小处理单元 每个操作符代表一个 HDFS 操作或者 MapReduce 作业 Hive 通过 ExecMapper 和 ExecReducer 执行 MapReduce 程序,执行模式有本地模式和分 布式两种模式H...原创 2018-12-03 19:22:24 · 1125 阅读 · 0 评论 -
【图文详细 】Hive Join
对于 join 操作:原创 2018-12-03 19:24:15 · 229 阅读 · 0 评论 -
hive函数 -- split 字符串分割函数
hive字符串分割函数split(str, regex) - Splits str around occurances that match regexTime taken: 0.769 seconds, Fetched: 1 row(s)返回值为一个数组a.基本用法:例1:split('a,b,c,d',',')得到的结果:["a","b","c","d"] ...转载 2019-02-17 15:38:04 · 5073 阅读 · 0 评论 -
Hive常见的存储格式文件比较
一 列式存储和行式存储首先我们看一下一张表的存储格式1.1 行式存储1.2 列式存储1.3列式存储和行式存储的比较行式存储优点:#相关的数据是保存在一起,比较符合面向对象的思维,因为一行数据就是一条记录#这种存储格式比较方便进行INSERT/UPDATE操作缺点:#如果查询只涉及某几个列,它会把整行数据都读取出来,不能跳过不必要的列读取。当然数据比较少,...转载 2019-02-03 11:23:08 · 851 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之 排序选择
原创 2018-12-03 19:31:24 · 187 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之 怎样做笛卡尔积
原创 2018-12-03 19:30:57 · 3437 阅读 · 1 评论 -
【图文详细 】Hive 优化常用手段
1、好的模型设计事半功倍2、解决数据倾斜问题3、减少 job 数4、设置合理的 MapReduce 的 task 数,能有效提升性能。(比如,10w+级别的计算,用 160个 reduce,那是相当的浪费,1 个足够) 5、了解数据分布,自己动手解决数据倾斜问题是个不错的选择。这是通用的算法优化,但 算法优化有时不能适应特定业务背景,开发人员了解业务,了解数据,可以通过业务逻辑精 ...原创 2018-12-03 19:29:48 · 192 阅读 · 1 评论 -
【图文详细 】Hadoop 框架计算特性
原创 2018-12-03 19:28:16 · 139 阅读 · 0 评论 -
【图文详细 】Hive Distinct
原创 2018-12-03 19:25:25 · 1104 阅读 · 1 评论 -
【图文详细 】Hive Group By
原创 2018-12-03 19:24:55 · 720 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之设置合理的 reduceTask 的数量
原创 2018-12-04 23:49:27 · 957 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之小文件合并
原创 2018-12-04 23:48:44 · 674 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之设置合理的 maptask 数量
原创 2018-12-04 23:47:55 · 1737 阅读 · 0 评论 -
【图文详细 】Hive中DDL如何创建表呢?
创建表1.语法结构:详情请参见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-CreateTable 2、 建表语句相关解释CREATE TABLE:创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用 户可以用 IF NOT EXIS...原创 2018-11-26 18:58:07 · 574 阅读 · 0 评论 -
【图文详细 】Hive的DDL操作中如何切换库?
切换库操作:语法:use database_name实例:use myhive;原创 2018-11-26 18:44:27 · 1063 阅读 · 0 评论 -
【图文详细 】Hive的DDL操作中如何删除库?
删除库操作: drop database dbname; drop database if exists dbname; 默认情况下,hive 不允许删除包含表的数据库,有两种解决办法:1、 手动删除库下所有表,然后删除库2、 使用 cascade 关键字drop database if exists dbname cascade; 默认情况下就是restri...原创 2018-11-26 18:43:41 · 298 阅读 · 0 评论 -
【图文详细 】Hive的DDL操作中如何查看库?
查看库1、查看有哪些数据库 show databases; 2、显示数据库的详细属性信息 语法:desc database [extended] dbname; 示例:desc database extended myhive; 3、查看正在使用哪个库 select current_database(); 4、查看创建库的详细语句 show ...原创 2018-11-26 18:42:35 · 828 阅读 · 0 评论 -
【图文详细 】Hive的DDL操作中如何创建库?
创建库语法结构:创建库的使用方式:1、 创建普通库create database dbname;2、 创建库的时候检查存与否create databse if not exists dbname;3、 创建库的时候带注释create database if not exists dbname comment 'create my db named dbname'...原创 2018-11-26 18:40:15 · 149 阅读 · 0 评论 -
Hive特殊分隔符处理
补充:hive 读取数据的机制:1、 首先用 InputFormat<默认是:org.apache.hadoop.mapred.TextInputFormat >的一个具体实 现类读入文件数据,返回一条一条的记录(可以是行,或者是你逻辑中的“行”)2、 然后利用 SerDe<默认:org.apache.hadoop.hive.serde2.lazy.LazySimpleS...原创 2018-12-02 15:00:36 · 2284 阅读 · 1 评论 -
【图文详细 】Hive 函数、Hive 函数、Hive 函数
1.hive内置函数1.1、内容较多,见《Hive 官方文档》 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.2、测试内置函数的快捷方式: 第一种方式:直接使用,例如:select concat('a','a')原创 2018-12-02 14:34:15 · 9398 阅读 · 1 评论 -
【图文详细 】什么是Hive,深入浅出!
第一部分:Hive原理为什么要学习Hive的原理•一条Hive HQL将转换为多少道MR作业•怎么样加快Hive的执行速度•编写Hive HQL的时候我们可以做什么•Hive 怎么将HQL转换为MR作业•Hive会采用什么样的优化方式Hive架构&执行流程Hive执行流程•编译器将一个Hive QL转换操作符•操作符是Hive的最小的处理单元...转载 2018-11-20 20:26:57 · 562 阅读 · 0 评论 -
【图文详细 】Hive的DDL操作中如何删除表?
删除表语法结构: DROP TABLE [IF EXISTS] table_name; 命令:drop table if exists mytable;原创 2018-11-26 18:59:48 · 169 阅读 · 0 评论 -
【图文详细 】Hive的DDL操作中如何删除表?
删除表语法结构:DROP TABLE [IF EXISTS] table_name;命令:drop table if exists mytable;原创 2018-11-26 19:00:55 · 110 阅读 · 0 评论 -
【图文详细 】Hive 优化策略 之 怎样写 in/exists 语句
虽然经过测验,hive1.2.1 也支持 in/exists 操作,但还是推荐使用 hive 的一个高效替代方案:原创 2018-12-04 23:46:58 · 1605 阅读 · 0 评论 -
【图文详细 】Hive 架构
原创 2018-12-02 23:56:19 · 245 阅读 · 1 评论 -
【图文详细 】Hive 特点
原创 2018-12-02 23:54:44 · 492 阅读 · 1 评论 -
【图文详细 】Hive 和 RDBMS 的对比
总结:Hive 具有 SQL 数据库的外表,但应用场景完全不同,Hive 只适合用来做海量离线数 据统计分析,也就是数据仓库。原创 2018-12-02 23:53:34 · 571 阅读 · 1 评论 -
【图文详细 】Hive 基本使用
原创 2018-12-02 23:51:15 · 112 阅读 · 0 评论 -
【图文详细 】Hive的DML操作中Insert 插入数据
语法结构: 1、插入一条数据: INSERT INTO TABLE table_name VALUES(XX,YY,ZZ); 2、利用查询语句将结果导入新表: INSERT OVERWRITE [INTO] TABLE table_name [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM fro...原创 2018-11-26 19:11:48 · 13596 阅读 · 0 评论 -
【图文详细 】Hive的DML操作中Load装载数据
Load装载数据语法结构:LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] 说明:1、 LOAD 操作只是单纯的复制或者移动操作,将数据文件移动到 Hive 表对应的位置。 2、 LOCAL 关...原创 2018-11-26 19:06:51 · 282 阅读 · 0 评论 -
【图文详细 】Hive的DDL操作中如何清空表?
清空表语法: TRUNCATE TABLE table_name [PARTITION partition_spec];实例:truncate table student; truncate table student_ptn partition(city=’beijing’);原创 2018-11-26 19:01:55 · 790 阅读 · 0 评论