大数据---Hadoop
辛星
生命不息,奋斗不止。
展开
-
辛星笔记之Hadoop权威指南第一篇即MapReduce
MapReduce是一种可用于数据处理的编程模型,该模型比较简单,但用于编写有用的程序并不简单。Hadoop可以运行由各种语言编写的MapReduce程序。MapReduce程序本质上是并行运行的,因此可以将大规模的数据分析任务交给任何一个拥有足够多机器的运营商。MapReduce的优势在于处理大规模数据集。 MapReduce任务过程被分为两个处理阶段:map阶段和reduce阶段原创 2015-02-28 23:07:18 · 919 阅读 · 0 评论 -
辛星笔记Hadoop权威指南第二篇即数据流
MapReduce作业也就是job是客户端需要执行的一个工作单元,它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务task来执行,其中包括两类任务:map任务和reduce任务。 有两类节点控制着作业执行过程:一个jobtracker以及一系列的tasktracker。其中jobtracker通过调度tasktracker上运行的任务,来协调所原创 2015-02-28 23:31:19 · 811 阅读 · 0 评论 -
辛星笔记之Hadoop权威指南第五篇HDFS基本概念
每个磁盘都有默认的数据块大小,这是磁盘进行数据读写的最小单位。构建于单个磁盘上的文件系统通过磁盘块来管理该文件系统中的块,该文件系统块的大小可以是磁盘块的数倍。文件系统一般为几千字节,而磁盘块一般为512字节。 HDFS同样也有块的概念,但是它大得多,默认为64MB。与单一磁盘上的文件系统相似,HDFS的文件也被划分为块大小的多个分块(chunk),作为独立的存储单元。但是HDFS原创 2015-03-01 12:19:08 · 1235 阅读 · 0 评论 -
辛星笔记之Hadoop权威指南第三篇combiner
集群上的可用宽带限制了MapReduce作业的数量,因此最重要的一点是尽量避免map任务和reduce任务之间的数据传输。Hadoop允许用户针对map任务的输出指定一个合并函数,有时候我们也称作combiner,它就像mapper和reducer一样。 合并函数的输出作为reduce函数的输入,由于合并函数是一个优化方案,所以Hadoop无法确定针对map任务输出中任一条记录需要调原创 2015-03-01 11:02:10 · 900 阅读 · 0 评论