Yarn资源调度系统 1.hadoop集群是将多台机器联合起来,成为一个大的集群服务器2.每台机器的硬盘,提供出来组成hdfs分布式文件系统3.每台机器的CPU和MEM内存由yarn管理调度按顺序执行,FirstIn FirstOut如果有个大任务执行,小任务在后面,会先执行完大任务才会执行小任务在FIFO调度器中,小任务可能被大任务阻塞。
MapReduce分布式文件计算系统 *** 自定义mapper类需要继承Mapper,有四个泛型,* keyin: k1 行偏移量 Long* valuein: v1 一行文本内容 String* keyout: k2 每一个单词 String* 在hadoop当中没有沿用Java的一些基本类型,使用自己封装了一套基本类型/*** 继承mapper之后,覆写map方法,每次读取一行数据,都会来调用一下map方法* @param key:对应k1* @param value:对应v1。