🚀 优质资源分享 🚀
学习路线指引(点击解锁) | 知识定位 | 人群定位 |
---|---|---|
🧡 Python实战微信订餐小程序 🧡 | 进阶级 | 本课程是python flask+微信小程序的完美结合,从项目搭建到腾讯云部署上线,打造一个全栈订餐系统。 |
💛Python量化交易实战💛 | 入门级 | 手把手带你打造一个易扩展、更安全、效率更高的量化交易系统 |
Hive的基本知识与操作
目录* Hive的基本知识与操作
+ Hive的基本概念
- 为什么使用Hive?
- Hive的特点:
- Hive的优缺点:
- Hive应用场景
+ Hive架构
- Client
- Metastore(元数据)
- sql语句是如何转化成MR任务的?
- 数据处理
+ Hive的三种交互方式
- 第一种交互方式
- 第二种交互方式
- 第三种交互方式
+ Hive元数据
+ Hive的基本操作
- 创建数据库
- 修改数据库
- 查看数据库详细信息
- 删除数据库
+ Hive的数据类型
- 基础数据类型
- 复杂的数据类型
+ Hive的文件格式
+ Hive的表操作
- 创建表
* 默认建表方式
* 指定location
* 指定存储格式
* 创建表并加载另一张表的所有信息
* 只建表,不需要加载数据,相当于建表语句一样
* 复杂人员信息表创建
- 显示表
- 加载数据
* 1、使用 Hadoop fs -put ‘本地数据地址’ ‘hive表对应的HDFS目录下’
* 2、将Linux本地目录下的文件 上传到 hive表对应HDFS 目录下 原文件不会被删除
* 3、覆盖加载overwrite
- 清空表
- 插入表数据insert into table xxxx SQL语句 (没有as)
* 覆盖插入
- 修改列
- 删除表
+ Hive内部表
+ Hive外部表
+ Hive导出数据
Hive的基本概念
Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。
为什么使用Hive?
如果直接使用hadoop的话,人员学习成本太高,项目要求周期太短,MapReduce实现复杂查询逻辑开发难度太大。如果使用hive的话,可以操作接口采用类SQL语法,提高开发能力,免去了写MapReduce,减少开发人员学习成本,功能扩展很方便(比如:开窗函数)。
Hive的特点:
1、可扩展性
Hive可以自由的扩展集群的规模,一般情况下不需要重启服务
2、延申性
Hive支持自定义函数,用户可以根据自己的需