任务1 了解Hive基础
1.1.1认识Hive
1.Hive产生的背景
Hadoop中的MapRedrce计算模型能将计算任务切分成多个小单元,然后分布到各个节点上去执行,从而降低计算成本并提高打展性。但是使用MapReduce进行数据处理的门槛比较高,传统的数据库开发、管理和运维的人员必须掌握Java面向MapReduce API编程并具备定的编程基础后, 才能使用MapReduce处理数据。
然而,Hadoop 分布式系统 (Hadoop Distributed File System, HDFS) 中最关键的一点就是,数据存储在HDFS上是没有Schema (模式)概念的。这里的Schema相当于表里面的列、字段、字段名称、字段与字段之间的分隔符等,也可称为Schema信息。 在HDFS上的数据文件通常是纯文本文件。
那么能否让用户将数据文件从一个现有的数据架构转移到Hadoop上来呢?假设该数据架构是基于传统关系型数据库和SQL查询的。其实对于大量的SQL用户来说,这个问题很难解决。针对这个挑战,Hive 在Facebook诞生了。
2.什么是Hive
Hive 是一个开源的数据仓库工具,用于在 Hadoop 分布式文件系统上进行 数据分析和查询。它提供了一种类似于 SQL 的查询语言,允许用户使用熟悉的 SQL 语法来处理和分析存储在 Hadoop 中

本文介绍了Hive在Hadoop环境下的基础,包括其产生的背景、作为数据仓库工具的角色、与传统关系数据库的区别、特点和优势,以及Hive的架构设计、工作流程和适用场景。Hive通过类SQL查询简化了大数据处理,尤其适合离线分析和大规模数据处理。
最低0.47元/天 解锁文章
1760

被折叠的 条评论
为什么被折叠?



