hadoop中的MapReduce
map和reduce的输入输出.
map的输入是一个键值对,比如对于统计文件字数的map程序来说,键为文件名,值为文件内容。输出也是键值对。
然后shuffle过程就是按照map的输出的键进行归类并按键值排序。
reduce的输入是shuffle过后的键值对。reduce的任务就是统计某一个键对应的值的内容。然后将这个键和统计的值输出。
洗牌是一个什么概念?
我理解为按键值归类。
hadoop中的MapReduce
map和reduce的输入输出.
map的输入是一个键值对,比如对于统计文件字数的map程序来说,键为文件名,值为文件内容。输出也是键值对。
然后shuffle过程就是按照map的输出的键进行归类并按键值排序。
reduce的输入是shuffle过后的键值对。reduce的任务就是统计某一个键对应的值的内容。然后将这个键和统计的值输出。
洗牌是一个什么概念?
我理解为按键值归类。