Hadoop
liangjf85
这个作者很懒,什么都没留下…
展开
-
Mapper输入InputSplit分片数透析
什么是InputSplitInputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了<文件名,开始位置,长度,位于哪些主机>等信息。map task的数量由输入文件总大小和分片大小确定的;hadoop2.2版本hdfs的数据块默认是128M。若一个文...原创 2014-09-26 00:30:10 · 877 阅读 · 0 评论 -
Hadoop Map中如何处理跨行Block和InputSplit
前面一节中我们说过Mapper最小输入数据单元是InputSplit。比如对于那么对于一个记录行形式的文本大于128M时,HDFS将会分成多块存储(block),同时分片并非到每行行尾。这样就会产生两个问题1. Hadoop的一个Block默认是128M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2. 在把文件从Block中读取出来进行切分时,会不会造成...原创 2014-09-30 16:14:46 · 195 阅读 · 0 评论