一、什么是MapReduce?
概念"Map(映射)“和"Reduce(化简)”,和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。
他极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
映射和化简 简单说来,一个映射函数就是对一些独立元素组成的概念上的列表(例如,一个测试成绩的列表)的每一个元素进行指定的操作(比如前面的例子里,有人发现所有学生的成绩都被高估了一分,他可以定义一个“减一”的映射函数,用来修正这个错误)。
事实上,每个元素都是被独立操作的,而原始列表没有被更改,因为这里创建了一个新的列表来保存新的答案。这就是说,Map操作是可以高度并行的,这对高性能要求的应用以及并行计算领域的需求非常有用。
二、怎么做?先将前面几个程序在前期运行无错误的基础上将它们打包!如图操作!
二、解压传输
(1)将包传输到SecureCRT里,SecureCRT 【File】→【Connect SFTP Session】开启sftp操作
运行命令put C:mp,jar
(2)解压tar -zxvf mp.jar -C /home/shui
三、运行自带程序wordcount
(1)运行cd /home/shui/hadoop-2.7.3/share/hadoop/mapreduce 转入wordcount所在路径。
(2)运行wordcount
hadoop jar mp.jar HDFSFileIfExist
运行成功!