HDFS架构图
HDFS:分布式文件系统
DataNode:存放文件或文件副本。块:最小64MB。
Map Reduce的四个阶段:
1、Split阶段(分片输入阶段)
2、Map阶段(需要编码)
3、Shuffle阶段
4、Reduce阶段(需要编码)
Word Count实例回顾:
1、Input(输入文件)
2、Split阶段(分片输入阶段),将数据以<Key,Value>的形式输入到Map阶段
3、Map阶段。得到的每一行数据都会被拆分,将原始Value拆分,重新组成新的<Key,Value>,其中新的Key为原始的Value,新的Value为该数据出现一次,最终将所有新数据输入到Shuffle阶段
4、Shuffle阶段。该阶段比较复杂,简单解释就是将从Map得到的<Key,Value>新数据重新归类,将所有相同的Key重新归到一起,但是Value只进行归类不进行次数统计,将最后数据同样以<Key,Value>的形式输入到Reduce阶段
5、Reduce阶段。接收到Shuffle阶段传来的数据,将数据进行处理,对每一个Value进行求和处理,最后重新生成输出结果。
HDFS适合存放大文件
顺便review了下java
public class Animal {
public Animal() {
// TODO Auto-generated constructor stub
}
public String name ="animal";
public void action() {
System.out.println("animal run");
}
}
public class Pandas extends Animal{
public String name = "pandas";
public Pandas() {
// TODO Auto-generated constructor stub
}
public Pandas(String name) {
// TODO Auto-generated constructor stub
this.name = name;
}
@Override
public void action() {
// TODO Auto-generated method stub
System.out.println("pandas eat");
}
public String getName() {
return name;
}
public void setName(String name) {
this.name = name;
}
}
结果:
字符串逆转