大数据
文章平均质量分 65
haihongazar
这个作者很懒,什么都没留下…
展开
-
MR程序的几种提交运行模式
MR程序的几种提交运行模式本地模型运行1/在windows的eclipse里面直接运行main方法,就会将job提交给本地执行器localjobrunner执行 ----输入输出数据可以放在本地路径下(c:/wc/srcdata/) ----输入输出数据也可以放在hdfs中(hdfs://week110:9000/wc/srcdata)原创 2016-01-15 20:54:33 · 532 阅读 · 0 评论 -
JobTracker与TaskTracker的关系
JobTracker与TaskTracker的关系 JobTracker 对应于 NameNodeTaskTracker 对应于 DataNodeDataNode 和NameNode 是针对数据存放来而言的JobTracker和TaskTracker是对于MapReduce执行而言的 mapreduce中几个主要概念,map转载 2016-09-13 18:29:29 · 504 阅读 · 0 评论 -
HDFS的关键组件:NameNode/ DataNode
HDFS的关键组件有: NameNode:单一主元数据服务器,其中包含每个文件、文件位置以及这些文件及其所在的DataNode内的所有数据块的内存映射。 DataNode:每个集群节点均有一个从属DataNode,它为读/写请求提供服务以及按照NameNode的指令执行数据块创建、删除和复制。原创 2016-09-13 18:27:51 · 821 阅读 · 0 评论 -
MapReduce任务Namenode DataNode Jobtracker Tasktracker之间的关系
一、基本概念 在MapReduce中,一个准备提交执行的应用程序称为“作业(job)”,而从一个作业划分出的运行于各个计算节点的工作单元称为“任务(task)”。此外,Hadoop提供的分布式文件系统(HDFS)主要负责各个节点的数据存储,并实现了高吞吐率的数据读写。 在分布式存储和分布式计算方面,Hadoop都是用主/从(Master/Slave)架构。在一个配置完整的集群上转载 2016-09-13 18:26:02 · 2864 阅读 · 2 评论 -
hdfs工具类加注释
package cn.itcast.hadoop.hdfs;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import原创 2016-01-14 22:46:41 · 381 阅读 · 0 评论 -
一个mapreduce实例加注释
1.WCMapper.javapackage cn.itcast.hadoop.mr.wordcount;import java.io.IOException;import org.apache.commons.lang.StringUtils;import org.apache.hadoop.io.LongWritable;import org.apache.hado原创 2016-01-14 22:03:47 · 776 阅读 · 0 评论 -
mapreduce执行过程3
问题导读:1.Reduce类主要有哪三个步骤?2.Reduce的Copy都包含什么过程?3.Sort主要做了哪些工作?4.4 Reduce类4.4.1 Reduce介绍整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似,包括initiali转载 2016-01-16 11:15:30 · 328 阅读 · 0 评论 -
mapreduce 执行过程2
问题导读:1.hadoop哪些数据类型,是如何与Java数据类型对应的?2.ApplicationMaster什么时候启动?3.YarnChild进程什么时候产生?4.如果在recuece的情况下,map任务完成暂总任务的多少百分比?5.run的执行步骤是什么?6.哪个方法来执行具体的map任务?7.获取配置信息为哪个类?8.TaskAttemptContextIm转载 2016-01-16 11:11:06 · 694 阅读 · 0 评论 -
mapreduce yarn 的job提交流程
1 概述 该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步步来看里面到底是个什么情况。2 为什么要使用MapReduce Map/Reduce,是一种模式,适合解决并行计算的问题,比如TopN、贝叶斯分类等。注意,是并行计算,而非迭代计算,像涉及到层次聚类的问题转载 2016-01-16 10:28:16 · 3074 阅读 · 0 评论 -
国外大数据博客资源大全
这个列表包含了几乎所有经常更新的大数据的博客,属于一个广泛的类别:数据科学,数据分析,商业智能,机器学习,数据可视化,数据挖掘,NoSQL,Hadoop的等等。博客是按字母顺序排列。如果我们错过了任何重要的博客,请告诉我们。1. 451 Caos Theory2. A Beautiful Www3. A Blog By Tim Manns4. A Computer转载 2016-10-14 10:45:07 · 1432 阅读 · 0 评论