在Data Lake中,Hortonworks充分扩展了YARN作为数据处理系统的能力,将应用打包,然后根据需要启动程序。工作核心从平台管理转移到业务能力上,如下图所示
在2.x中,YARN是Hadoop的核心资源管理平台,核心概念是Application,Containers及Resources等。Container是虚拟执行环境,由一系列的进程和任务组成,应用程序由Container集合来执行,每个Container执行一个Task。随着平台的成熟,用户逐渐关注业务应用层,简化应用的部署、扩展,提供服务发现、管理能力,将多种应用Assemble成一个整体进行管理,如下图:
上述是Hortonworks针对Data Lake在YARN中做的能力扩展,针对整个Data Lake的构建,以数据为核心提供了完善的数据获取、管理和使用的机制,如下图所示:
用户可以通过系统界面或者Server将数据上传到HDFS上,然后使用自己的系统或者结合其他工具对这些数据进行分析。