Hive和HDFS

本文介绍了ApacheHive作为分布式SQL工具在大数据处理中的关键作用,包括将文件转换为表并执行SQL查询,以及利用HDFS的Master/Slave架构和副本机制来确保数据可靠性。Hive通过类SQL接口提供快速开发能力,底层实际运行MapReduce处理大规模数据。
摘要由CSDN通过智能技术生成

 Hive

Apache Hive是一款分布式SQL计算工具,主要两个功能是:

1.将我们的文件转化为表结构;

2.将SQL语句翻译成MapReduce程序进行。

对数据进行统计分析,SQL是目前最为方便的编程工具,大数据体系中充斥着非常多的统计分析场景,所以使用SQL去处理数据,在大数据中也是有极大的需求的。但又因为MapReduce只支持程序开发(Java,Python等,不支持SQL直接进行开发,所以这个时候我们就需要用HIve先把SQL语句翻译成MapReduce代码才能进行。

  要注意Hive只是为用户提供了分布式SQL计算的能力,相当于HIve给我们提供一个可以直接用SQL去处理Hadoop上的一些文件的通道。所以写的还是SQL,执行的却是MapReduce

  使用Hive处理数据的好处:

操作接口采用类SQL语法,提供快速开发的能力;

底层执行MapReduce,可以完成分布式海量收据的SQL处理。

HDFS

HDFS的架构:

HDFS采用Master/Slave架构
一个HDFS集群有两个重要的部分是Namenode和Datanode.
HDFS的四个基本组件:HDFS Client、NameNode、DataNode和Secondary NameNode.

HDFS的副本机制

  HFDS是一个能够在一个大集群中跨机器可靠地储存超大文件。它将每一个文件储存以西开裂 的数据块,这个数据块被称为block,其中除了最后一个,所有的block块的大小都是相等的。

  在Hadoop中,文件的block块的大小是128M.

  为了防止不可控制的原因导致部分block块丢失造成文件缺失,因此文件的所有block块都会备份,其中每个文件的block块大小和副本系数都是可以配置的。

  • 12
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值