Hadoop
文章平均质量分 87
Crls
共同进步
展开
-
Hive-数据仓库工具
Hive产生背景MapReduce编程的不便性传统RDBMS人员的需要Hive由Facebook开源,用于解决海量结构化日志的数据统计问题构建在Hadoop之上的数据仓库Hive提供SQL查询语言:HQL底层支持i多种不同的执行引擎 MR/Tez/SparkApache Hive数据仓库软件使用SQL语句促进了在分布式存储上的大数据集的读,写和管理。结构可以投射到已存储的数据上...原创 2020-03-03 11:47:10 · 275 阅读 · 0 评论 -
YARN-分布式资源调度框架
YARN产生背景YARN(Yet Another Resource Negotiator)YARN的重要思想是将资源管理和作业调度和监视的功能划分到不同的进程中,这一思路产生了一个资源管理者和每个应用的应用管理员,一个应用程序要么是一个作业,要么是一堆作业。(The fundamental idea of YARN is to split up the functionalities of...原创 2020-03-03 11:42:19 · 213 阅读 · 0 评论 -
MapReduce-分布式离线计算框架
MapReduceHadoop MapReduce是一个用于轻松编写程序的软件框架,这些程序以可靠的,容错的方式运行于大型集群中(数千个节点)的商用软件上并行处理大量数据(TB级别数据集)。MapReduce作业通常是将输入的数据集划分为独立的块,这些块完全由Map Task以完全并行的方式处理。框架将Map的输出进行排序,排序后的结果将被放入Reduce Task。通常,作业的输入输出结果都...原创 2020-03-03 11:31:24 · 690 阅读 · 0 评论 -
HDFS-分布式文件系统
HDFSHadoop分布式文件系统(HDFS[Hadoop Distributed File System])是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。H...原创 2020-03-03 11:18:29 · 571 阅读 · 0 评论