MapReduce的简单实例WordCount

hadoop

----------------------------------------

1.组成:common,hdfs,mapreduce,yarn

2.hadoop集群搭建:3种【搭建流程】

3.hdfs shell命令

4.hdfs体系结构:主从节点{namenode,datanode,secondarynamenode}都是守护进程而非节点:【官网结构图】

  fsimage和editslog概念:checkpoint检查点机制,集群的启动过程。

5.hdfs dfsadmin操作

6.hdfs API

 

MapReduce:分而治之,数据在那,计算在那

------------------------------------------

1.通用的软件计算框架(应用程序job),并行计算:map阶段+reduce阶段

  map(映射),并行处理,继承Mapper类,实现map函数  

  reduce(规约或化简):整合排序,继承Reducer类,实现reduce函数

2.MR程序采用<key,value>方式。

  【输入】------------【输出】

    kv对         kv对

  键和值必须由框架序列化:数据持久+网络间通信

3.MR的数据流转

(input) <k1,v1>-->map阶段--><k2,v2>-->reduce--><k3,v3>(output)

 

MR的编程思想

-------------------------

1.新建一个Map的类,继承Mapper类,实现其map函数,参数根据业务需求定义。

2.新建一个Reduce类,继承Reducer类,实现其reduce函数,参数根据业务需求定义

3.新建一个驱动类

4.打jar包,指定主类,然后复制到服务器,开启集群

5.hadoop jar命令 跑MR程序,可在8088 Web UI查看状态。

 

总结

-----------------------

MapReduce就是填空式编程,数据有几行,map函数就执行几次。

 

转载于:https://www.cnblogs.com/lyr999736/p/9248450.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值