MapReduce采用的多进程模型(spark采用多线程模型,代价高并发时资源竞争会造成资源管理负责,所以没有MapReduce性能稳定)
使用进程的好处
独立的进程空间,方便资源调配和管理
代价
进程比线程相对消耗更多的启动时间
当一个记录被截断进2个block时,该行记录属于上一个block的split。大部分情况下 split和block大小一致
-
File: 文件要存储在HDFS中,每个文件切分成多个一定大小(默认64M)的Block(默认3个备份)存储在多个节点(DataNode)上。
-