MapReduce:分布式离线计算框架
分布式:程序多节点(resourceManager 和 nodeManager)多角色(map 和 reduce)组成
离线:计算过程中产生中间数据,会保存在硬盘上
计算框架:提供了一个编程模型,可以很轻松的实现分布式数据分析程序
使用 MapReduce 需要先启动 hdfs 和 yarn:
1. 启动 3 个节点的 zookeeper
2. 启动 hdfs
3. 启动 yarn
ResourceManager
NodeManager
http://master:8088
wordcount(词频统计):
计算单词在文章内出现的次数
计算单词在文章内出现的次数
1. 在 /root 中创建一个 word.txt 文件
2. 输入一些单词
3. 上传 word.txt 到 hdfs
4. 进入 /usr/local/hadoop/share/hadoop/mapreduce 文件夹
5. 执行词频统计程序:
hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.1.jar wordcount /word.txt /word-count-1
hadoop jar:执行 maperduce 程序
/word.txt:待分析的数据保存位置
/word-count-1&#x