一、hadoop体系核心
1)HDFS:hadoop分布式文件系统海量数据存储(集群服务)。
2)MapReduce:分布式运算框架(编程框架),海量数据运算分析。
3)Yarn:资源调度管理集群(可以理解为一个分布式的操作系统,管理和分配集群硬件资源)。 用MapReduce编写一个程序,到Yarn运行平台上去运行。
二、.spark 、MapReduce都有计算分析功能
三.sqoop是数据库和hadoop体系的数据导入导出工具
四.hive查询hdfs内容的工具,他的核心是把hsq转换成MapReduce执行的语言,能查询hdfs数据,也能直接导入数据到hive。
总有人问hive到底是存储仓库,还是存储仓库工具,为什么可以直接导入到hive
答案是:仓库工具
其实看看hived的原理不难发现,直接导入数据到hive时,其实是数据先导入至hdfs,然后会有一个脚本去执行将hdfs的数据load至hive中并进行了数据结构映射。这样你就能通过hive sql语法查询了,所以我们将数据导入到hive时,其实hdfs中也会有这个数据。
hdfs
最新推荐文章于 2024-07-24 21:14:44 发布