hadoop
小鸭子_嘎嘎
快乐的鸭子,快乐的程序猿。在路上,一直在路上。
展开
-
客户端提交MR程序job的流程
这里是我自己总结的简单的描述:Configuration conf = new Configuration();// conf.set("mapreduce.framework.name", "yarn");// conf.set("yarn.resoucemanager.hostname", "hadoop"); Job job = Job.getInstance(conf);原创 2017-03-27 21:03:19 · 1467 阅读 · 0 评论 -
关于Partitioner(自定义partitioner编程实现数据自定义分区处理)
这个场景的前提是:比如一大批手机号码 需要分区,就是确定那个号码是那个省份的,所以在Maptask阶段是要把所有的省份的号码全部放在一个Map里面,然后提交给reducetask去处理,但是默认的是一个reducetask。 这时候就需要重写Partitioner的方法实现Maptask的去处。package cn.itcast.bigdata.mr.provinceflow;import java原创 2017-03-27 21:09:26 · 1311 阅读 · 0 评论 -
MapReduce 程序详解
Hadoop的第一课总是MapReduce,但是往往我们每次都是使用自带的例子跑一遍MapReduce程序,今天总与自己写了一个完整的程序。技术有限,多多指教。 1.导Jar包,将Hadoop的Jar导入到你的工程 2.开始写自己的主类,分为3个类。 第一个类WordcountMapperpackage cn.itcast.bigdata.mr.wcdemo;import java.io.原创 2017-03-23 11:24:16 · 545 阅读 · 0 评论 -
学习Hadoop笔记之一
学习的时候出现了几个问题,然后想想把记录了下来,能力有限,多多见谅。 1.关于关闭防火墙的问题: a) 因为虚拟机是要做服务器 内网链接 防火墙一般全部关闭 在很多时候不关闭防火墙会出现很多问题(端口被占用的问题!)所以要关闭防火墙! 2.关于主机网页登陆不上虚拟机的apache服务的时候,比如Tomact。 如果能Ping通的话,一般就是防火墙的问题,a) 必须要关闭虚拟机的防火墙原创 2017-03-23 21:26:27 · 401 阅读 · 0 评论 -
关于MapReduce中的切片机制
MapReduce的每一个Spilt都回提交给一个Job 最后都有一个Client 关于Spilt 将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理 这段逻辑及形成的切片规划描述文件,由FileInputFormat实现类的getSplits()方法完成,切片定义在InputFormat类中的g原创 2017-03-27 14:22:49 · 3814 阅读 · 4 评论