- 博客(2)
- 收藏
- 关注
原创 hadoop map reduce高级
InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job提交时如何获取到InputSplit。用户指定的MapTask的个数,以及文件总长度,块大小,以及用户指定的最小分片长度会影响到最后可
2017-08-16 00:10:21 234
转载 初尝大数据
1.什么是大数据,4V?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):
2017-08-07 23:00:53 304
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人