Hive入门级教学

本文介绍了Hive在Hadoop环境下的基础,包括其产生的背景、作为数据仓库工具的角色、与传统关系数据库的区别、特点和优势,以及Hive的架构设计、工作流程和适用场景。Hive通过类SQL查询简化了大数据处理,尤其适合离线分析和大规模数据处理。
摘要由CSDN通过智能技术生成

任务1 了解Hive基础

1.1.1认识Hive

    1.Hive产生的背景
     Hadoop中的MapRedrce计算模型能将计算任务切分成多个小单元,然后分布到各个节点上去执行,从而降低计算成本并提高打展性。但是使用MapReduce进行数据处理的门槛比较高,传统的数据库开发、管理和运维的人员必须掌握Java面向MapReduce API编程并具备定的编程基础后, 才能使用MapReduce处理数据。
    然而,Hadoop 分布式系统  (Hadoop Distributed File System, HDFS) 中最关键的一点就是,数据存储在HDFS上是没有Schema (模式)概念的。这里的Schema相当于表里面的列、字段、字段名称、字段与字段之间的分隔符等,也可称为Schema信息。 在HDFS上的数据文件通常是纯文本文件。
     那么能否让用户将数据文件从一个现有的数据架构转移到Hadoop上来呢?假设该数据架构是基于传统关系型数据库和SQL查询的。其实对于大量的SQL用户来说,这个问题很难解决。针对这个挑战,Hive 在Facebook诞生了。
    2.什么是Hive
     Hive 是一个开源的数据仓库工具,用于在 Hadoop 分布式文件系统上进行 数据分析和查询。它提供了一种类似于 SQL 的查询语言,允许用户使用熟悉的 SQL 语法来处理和分析存储在 Hadoop 中
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值