hdfs

一、hadoop体系核心
1)HDFS:hadoop分布式文件系统海量数据存储(集群服务)。
 
2)MapReduce:分布式运算框架(编程框架),海量数据运算分析。
 
3)Yarn:资源调度管理集群(可以理解为一个分布式的操作系统,管理和分配集群硬件资源)。 用MapReduce编写一个程序,到Yarn运行平台上去运行。
 
二、.spark 、MapReduce都有计算分析功能
 
 
三.sqoop是数据库和hadoop体系的数据导入导出工具
 
四.hive查询hdfs内容的工具,他的核心是把hsq转换成MapReduce执行的语言,能查询hdfs数据,也能直接导入数据到hive。
 
总有人问hive到底是存储仓库,还是存储仓库工具,为什么可以直接导入到hive
答案是:仓库工具
其实看看hived的原理不难发现,直接导入数据到hive时,其实是数据先导入至hdfs,然后会有一个脚本去执行将hdfs的数据load至hive中并进行了数据结构映射。这样你就能通过hive sql语法查询了,所以我们将数据导入到hive时,其实hdfs中也会有这个数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值