hive
文章平均质量分 91
dwjf321
这个作者很懒,什么都没留下…
展开
-
Hive 从 0 到 1 学习 —— 第十章 Hive 企业级调优
文章目录1. Fetch抓取2. 本地模式3. 表的优化3.1 小表、大表Join3.2 大表Join大表3.2.1 空KEY过滤3.2.2 空 key 转换3.3 MapJoin3.3.1 开启MapJoin参数设置3.3.2 MapJoin 工作机制3.3.3 案例实操3.4 Group By3.5 Count(Distinct) 去重统计3.6 笛卡尔积3.7 行列过滤3.8 动态分区调整3.8.1 开启动态分区参数设置3.8.2 案例实操3.9 分桶3.10 分区4. 数据倾斜4.1 合理设置 Ma原创 2021-01-16 23:15:19 · 2121 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第八章 Hive 查询函数
文章目录1. 系统内置函数2. 常用函数2.1 指标函数2.2 collect_set 函数2.3 日期处理函数2.4 字符串连接函数2.5 json 解析函数3. 其他常用查询函数3.1 空字段赋值3.2 CASE WHEN3.3 行转列3.4 列转行3.5 窗口函数3.6 Rank4. 自定义函数5. 自定义 UDF 函数6. 自定义 UDTF 函数6.1 自定义 UDTF 步骤6.2 具体实现1. 系统内置函数查看系统自带的函数hive> show functions;显示自带原创 2021-01-16 23:13:00 · 1860 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第七章 Hive 查询
文章目录1.基本查询(Select…From)1.1 全表和特定列查询1.2 列别名1.3 算术运算符1.4 常用函数1.4.1 指标函数1.4.2 collect_set 函数1.4.3 日期处理函数1.4.4 字符串连接函数1.4.5 json 解析函数1.5 Limit语句2. Where语句2.1 比较运算符(Between/In/ Is Null)2.2 Like 和 RLike2.3 逻辑运算符(And/Or/Not)3. 分组3.1 Group By 语句3.2 Having 语句4. Joi原创 2021-01-16 23:12:06 · 944 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第六章 Hive DML 语句定义
文章目录1. 导入数据1.1 向表中装载数据(Load)1.1.1 语法1.1.2 实操案例1.1.2.1 创建一张表1.1.2.2 加载本地文件到 hive1.1.2.3 加载HDFS文件到hive中1.1.2.4 加载数据覆盖表中已有的数据1.2 通过查询项表中插入数据(Insert)1.3 查询语句中创建表并加载数据(As Select)1.4 创建表时通过 Location 指定加载数据路径1.5 Import 数据到指定 Hive 中2. 数据导出2.1 Insert导出2.2 Hadoop命令导原创 2021-01-16 23:08:38 · 559 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第五章 Hive DDL 语句定义
文章目录1. 创建数据库2.1 显示数据库2.2 查看数据库详情2.3 切换当前数据库3. 修改数据库4. 删除数据库5. 创建表5.1 建表语法5.2 字段解释说明5.3 管理表(内部表)5.3.1 理论5.3.2 案例实操5.4 外部表5.4.1 理论5.4.2 管理表和外部表的使用场景5.4.3 案例操作5.5 管理表与外部表相互转换6. 分区表6.1 分区表基本操作6.2 二级分区表7. 修改表7.1 修改表名7.2 增加、修改和删除表分区7.3 增加/修改/替换列信息8. 删除表1. 创建数据库原创 2021-01-16 23:07:48 · 628 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第四章 Hive 数据类型
文章目录1. 基本数据类型2. 集合数据类型3. 类型转化1. 基本数据类型Hive数据类型Java数据类型长度例子TINYINTbyte1byte有符号整数20SMALINTshort2byte有符号整数20INTint4byte有符号整数20BIGINTlong8byte有符号整数20BOOLEANboolean布尔类型,true或者falseTRUE FALSEFLOATfloat单精度浮点数3.14159原创 2021-01-16 23:06:18 · 517 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第三章 Hive 运行引擎 Tez
文章目录1. Tez 安装1.1 安装包准备2. 在 Hive 中配置 Tez3. 配置 Tez4. 上传 Tez 到集群5. 测试6. 小结Tez 是一个 Hive 的运行引擎,性能优于 MR。为什么呢?看下图:用 Hive 直接编写 MR 程序,假设有四个有依赖关系的 MR 作业,上图中,绿色是 Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到 HDFS。Tez 可以将多个有依赖的作业转换为一个作业,这样只需写一次 HDFS,且中间节点较少,从而大大提升作业的计算性能。1. T原创 2021-01-16 23:05:05 · 572 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第二章 Hive 安装
文章目录1. Hive 安装地址2. Hive 安装部署2.1 Hive 安装及配置2.2 Hadoop 集群配置2.3 Hive基本操作3. 将本地文件导入 Hive 案例3.1 数据准备3.2 Hive 实际操作3.3 遇到的问题4. Hive 元数据配置到 MySql4.1 驱动拷贝4.2 配置 Metastore 到 MySql4.3 多窗口启动 Hive 测试5. HiveJDBC 访问5.1 启动 hiveserver2 服务5.2 连接 hiveserver25.3 DBeaver 连接 hi原创 2021-01-16 23:03:31 · 574 阅读 · 0 评论 -
Hive 从 0 到 1 学习 —— 第一章 Hive 入门
文章目录1. 什么是 Hive2. Hive 的优缺点2.1 优点2.2 缺点3. Hive 的架构原理4. Hive 和数据库比较4.1 查询语言4.2 数据存储位置4.3 数据更新4.4 索引4.5 执行4.6 执行延迟4.7 可扩展性4.8 数据规模1. 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质是:将 HQL 转化成 MapRed原创 2021-01-16 23:01:06 · 2571 阅读 · 0 评论