数据在哪,就在哪里计算(快)
mapreduce框架仅在<key,value>对上操作,也就是说,该框架将作业的输入作为一对<key,value>值,并生成一对<key,value>值作为其输出
hadoop中text(2G容量)=String,基本类型后+Writeable, .get()转基本类型,.set()基本类型转**Writeable
mapreduce 擅长统计,排名
一个块对应一个map来计算,每个块都有一个1.1的超额配置,当文件的最后一个块没超过本块的1.1比例时,不会多用一个块将其放入(因为会多调用一个map),而是将其放入最后一个块中。
map中的k2,v2 是具体数据和1;reduce中的k2,v2是具体数据和数组(k2与map一样,但却去重。v2是把所有map的v2都放在一个数组里)
reduce的k3,v3(k3与k2一致,v3是把v2做统计求和)
补:何为序列化?
将内存中的数据持久化保存在磁盘上,将磁盘上的数据放在内存上运行
mapreduce介绍
最新推荐文章于 2022-05-16 23:27:41 发布