大数据生态与spark简介
大数据生态
1.什么是大数据?
大数据(BigData)是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率、多样化的信息资产。由IBM提出的大数据的五个特征(5V):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。
大数据的核心是Hadoop生态系统。我们通常可能会根据特定的用特来描述软件工具,比如:Oracle是数据库、Apache Tomcat 是 Web 服务器。