1.大数据处理系统的三大关键要素------“存储”,“计算”和“容错”。
2.MapReduce:重写了Google的索引文件系统。
3.在Hadoop中,用于执行MapReduce任务的机器有两个角色:一个是JobTracker,另一个是TaskTracker.
4.在Hadoop中,每个MapReduce任务都被初始化为一个Job,分为Map阶段和Reduce阶段。
5.InputFormat()和InputSplit
1.InputSplit是Hadoop中用来把输入数据传送给每个单独的Map,InputSplit存储的并非数据本身,而是一个分片长度和一个记录数据位置的数组。
6.InputFormat()方法是用来生成可供Map处理的<key,value>对的。
7.InputFormat()调用getRecordReader()方法生成RecordReader,RecordReader再通过createKey(),createValue()方法创建可供Map处理的<key,value>对,即<k1,v1>.
8.InputFormat的子类有DBInputFormat和FileInputFormat,FileInputFormat分为CombineFileInputFormat,KeyValueTextInputFormat,TextInputFormat.
9.TextInputFormat是Hadoop默认的输入方法。
10.key值是每个数据记录在数据分片中的字节偏移量,数据类型是LongWritable.
11.value值是每行的内容,数据类型是Text.