CDAP概述
CDAP (CAST DATA APPLICATION PLATFORM)是一个开源的大数据应用统一集平台,帮助应用开发者和系统管理员基于Hadoop技术栈来构建、测试、部署、管理数据应用程序。CDAP由Datasets、Programs、 Services、Tools等组件组成,如图1 所示:
其中:
CDAP Datasets:是存储在HDFS和HBase中数据的逻辑表示,Datasets提供从应用中写数据的接口层,不关心底层存储引擎,允许以重用库的方式封装应用数据。
CDAP Programs:应用程序可使用不同的开源框架如MapReduce、Spark和realtime Flow来处理,CDAP附带App container来整合每个处理框架,并提供一种标准化的方式来开发、部署和管理程序。
CDAP Services:系统级服务,在开发和生产环境中支持数据和应用程序,包括应用管理,元数据管理,数据流和安全。
CDAP Tools: 包括开发工具如:Maven、SDK、调试工具、测试框架和操作界面(UI)。
CDAP支持多种运行环境,基于内存、单机和集群,CDAP子项目提供和CDAP交互的SDK和工具、applications和可重用的大数据组件(packs)
CDAP的特性
数据提取
通过流的方式提供了可扩展、可靠的实时和批量数据提取,支持push和pull,支持Flume, Kafka 和 REST,支持SQL-like 数据查询,如下图所示。