- MapReduce编程模型
- MapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型。编程模型是处理并结构化特定问题的方式。
- MapReduce程序本质上是并行运行的,由JobTrackers和TaskTrackers组成。其优势在于处理大规模数据集。
- 将查询表示成MapReduce作业,过程分为两个处理阶段:map阶段和reduce阶段。
- HDFS
基于Hadoop的开源分布式文件系统,以Google的GFS为原型设计并实现具有高可靠性、高性能、可伸缩、实时读写的分布式文件系统。
- HBase
基于Hadoop的开源数据库,以Google的BigTable为原型,设计并实现具有高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。
- 大数据中间件
在网上搜索大数据中间件并没有准确的定义,只有中间件的定义,而且还有不同的说法。
中间件:
- 我国学术界一般认可的定义是中间件是指网络环境下处于操作系统、数据库等系统软件和应用软件之间的一种起连接作用的分布式软件,主要解决异构网络环境下分布式应用软件的互连与互操作问题,提供标准接口、协议,屏蔽实现细节,提高应用系统易移植性(北京大学梅宏)。
- 中科院软件所研究员仲萃豪形象地把中间件定义为平台+通信。这个定义限定了只有用于分布式系统中的此类软件才能被称为中间件,同时此定义还可以把中间件与支撑软件和实用软件区分开来。
说一下我肤浅的理解,也并不一定正确。大数据中间件:处于操作系统、分布式数据库(例如HBase)和运行于大数据平台上的应用程序之间,起连接作用使其相互通信的软件系统。一般大数据中间件可提供有关数据存储、查询、导入导出、删除以及计算分析等工具。