Hadoop数据仓库实战知识点

 

目录

第一章hive入门

第二章hive数据库及表操作

第三章hive元数据

第四章hive高级操作

第五章hive函数与streaming

第六章hive视图与索引

第七章 hive调优

第八章 hive与hbase集成

第九章 数据迁移框架sqoop


第一章hive入门

1,hive 是一个基于Hadoop的数据仓库工具,可以将一个结构化的数据文件映射为一张数据库表,并提供sql查询功能。数据仓库与数据库不同,数据仓库源自数据库而又不同与数据库,区别是数据仓库适合联机分析处理(OLAP)数据库适合联机事务处理(OLTP)。

2,hive的优点:HQL与SQL 有着相同的语法,大大提高了开发效率,hive 支持运行在不同的计算框架上,包括YARN ,TEZ ,SPARK,FLINK 等,hive支持hdfs与hbase上的ad-hoc,hive支持用户自定义的函数,脚本,hive支持Java数据库连接,开发数据库连接。最重要的是 具有 可扩展性,可延展性,可容错性。

3,hive架构设计:hive架构包含三个部分,hive客户端,hive服务端,hive存储与计算

4,hive工作流程:HQL 通过 CLI ,JDBC,客户端,HWL接口提交,通过compiler编译并运用metastore 中的数据进行类型和语法分析,产生以有向无环图描述的一系列mapreduce作业。

详细描述:1执行查询hive接口通过发送查询驱动程序执行查询,2,获取计划,在驱动程序帮助下查询编译器,3,获取元数据,编译器发送元数据请求到metastore ,4,发送元数据,metastore发送元数据到编译器以响应,5,发送计划,编译器检查查询要求,并重新发送查询计划到驱动程序,6 执行计划,驱动程序发送执行计划到执行引擎,7 执行任务,执行任务的过程是完成一个mapreduce工作的过程,执行引擎发送作业到joptracker,joptracker 再把作业分配到tracktracker,8获取结果,执行引擎接受来自数据节点的结果,9发送结果,执行引擎发送结果到驱动程序,10 发送结果,驱动程序发送结果到hive接口。

5,hive适用场景:hive适用非结构化的离线分析统计场合,hive的执行延迟比较高,适用对实时性要求不高的场合,hive的优势在于处理大数据,为超大数据集设计了计算与扩展功能,支持SQLlike查询语言,支持多表的join操作,支持非结构化数据的查询与计算,提供数据存储的的编程接口。

6,hive存储格式:hive中的数据分为真实数据与元数据,一般来说hive的存储格式 真实数据的存储格式。hive常见的存储格式有这四种(TEXTFILE,SEQUENCEFILE,RCFILE,ORCFILE)HIVE默认存储格式为textfile (txt,csv,tsv),TEXTFILE支持gzip压缩,但压缩后的文件不在支持mapreduce分隔机制。

第二章hive数据库及表操作

1,hive基本数据类型(整数:TINYINT,SMALLINT,INT,BIGINT,小数:FLOAT,DOUBLE,DECLMAL,文本:STRING,CHAR,VARCHAR,布尔:BOOLEAN,二进制:BINARY,时间:DATE,TIMESTAMP,INTERVAL)

第三章hive元数据

元数据可以看作是描述数据的数据包括hive表的数据库名,表名,字段名称与类型,分区字段与类型,hive将元数据存储在RDBMS中有以下三种模式可以连接到数据库,单用户模式,多用户模式,远程服务模式,

第四章hive高级操作

HQL SELECT 语句与SQL基本类似,包括DISTINCT,FROM,WHERE,GROUP BY,SORT BY,ORDER BY,DISTRIBUTE BY,CLUSTER BY, LIMIT 等子句。

HQL 支持cte 即可将查询作为临时表以便于共享,HQL 支持嵌套子查询,一般出现在FROM子句中无嵌套级别限制,HQL支持列匹配正则表达式和虚拟列,join 分为内连接,外连接,与交叉连接,其中外连接又分为左外连接,右外连接,与全连接。union all 用于合并多个具有相同结构的结果集,排序包括全排序,和局部排序,,通常 distribute by 和 sort by 会结合使用,GROUP BY 用于分组,配合聚和函数使用,窗口函数也可以用于分组,但与GROUP BY 不同,窗口函数是基于当前查询结果的分组操作,功能更强大,限制更小。窗口函数包括排序,聚合及分析类函数,聚会函数通常可支持窗口定义,可以进一步细分分组结果。 

第五章hive函数与streaming

从输入输出来看,函数可以分为三类,标准函数,聚合函数,表生成函数,查看函数,调用函数,,字符函数(string)类型转换函数(binary )聚合函数(count,sum ,max,min)数学函数(double,bigint)日期函数,条件函数,集合函数

第六章hive视图与索引

对于具有特殊安全性的行和列,通过建立视图,选取能提供给用户的列,授权给用户查看,视图的优势,视图可以简化用户对数据的理解,将注意力集中在关心的数据上,对于敏感数据,可以使用视图过滤掉该字段,使用视图可以降低查询复杂度,

第七章 hive调优

第八章 hive与hbase集成

第九章 数据迁移框架sqoop

  • 11
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值