Hadoop
csdn_今日有雨
不积跬步,无以至千里;不积小流,无以成江海!
展开
-
一、初识Hadoop
Hadoop是什么?Hadoop是由Apache基金会所开发的分布式基础架构。Hadoop是一种分布式存储数据和计算的框架,擅长存储大量的半结构化数据集,擅长分布式计算-快速的跨多台机器处理大型数据集合。Hadoop也泛指一组相关的项目,这些项目都使用这个基础平台进行分布式计算和海量数据处理。并构成了Hadoop生态系统。Hadoop的发行版本:1.x、0.22和2.x。Had原创 2016-07-07 00:28:03 · 604 阅读 · 0 评论 -
二、大数据相关的几个名词解释
MapReduce编程模型MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型。编程模型是处理并结构化特定问题的方式。MapReduce程序本质上是并行运行的,由JobTrackers和TaskTrackers组成。其优势在于处理大规模数据集。将查询表示成MapReduce作业,过程分为两个处理阶段:map阶段和reduce阶段。HDFS原创 2016-07-08 22:05:49 · 3520 阅读 · 0 评论 -
Hadoop 任务优先级设置(MapReduce)
作业提交到的队列:mapreduce.job.queuename作业优先级:mapreduce.job.priorityPig版本:SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priority HIGH;Hive版本:SET mapreduce.job.q转载 2017-04-01 11:03:33 · 3138 阅读 · 1 评论