数据搜集(Data Collection)部分的4个MapReduce任务。
在数据搜集部分,至少需要4个MapReduce任务:
- 数据导入(data ingestion):用来把散落的照片(比如众包公司上传到网盘的照片)下载到你的存储系统。
- 数据统一化(data normalization):用来把不同外包公司提供过来的各式各样的照片进行格式统一。
- 数据压缩(compression):你需要在质量可接受的范围内保持最小的存储资源消耗 。
- 数据备份(backup):大规模的数据处理系统我们都需要一定的数据冗余来降低风险。
Reference:
https://www.zhihu.com/question/303101438/answer/655475086