大数据
文章平均质量分 92
jshazhang
这个作者很懒,什么都没留下…
展开
-
MR工作流程
MR工作流程文章目录MR工作流程JOB提交创建staging路径获取jobId上传jar包到集群计算切片,生成切片规划文件向Stag路径写job.XML提交YARN配置上下文状态转换MRAppMasterYARNChaildMAPTaskMapOutputBuffer 环形缓冲区ReducTaskcopyPhaseFetcher线程sortPhasereducePhase写文件JOB提交客户端提交Job.waitForCompletionJob.submitsetUseNewAPI()适配API原创 2022-03-05 17:58:59 · 2379 阅读 · 0 评论 -
hadoop put流程代码
hadoop fs -put xxxx解析命令FsShell类的main方法进入创建实例FsShell shell = newShellInstance();ToolRunner.run(shell, argv)进入FsShell的run方法先init方法,主要是commandFactory = new CommandFactory(getConf())Command instance = commandFactory.getInstance(cmd);instance.run(argv)原创 2021-08-03 19:53:25 · 399 阅读 · 0 评论 -
kafka
kafaka组件brokerkafka集群中包含一个或多个服务器,服务器节点为brokerbroker存储topic的数据。如果某topic有N个partition,集群有N个broker,那么每个broker存储该topic的一个partition。如果某topic有N个partition,集群有(N+M)个broker,那么其中有N个broker存储该topic的一个partitio...原创 2020-02-26 19:30:11 · 942 阅读 · 0 评论