一.大数据的三个特点
规模性(Volume)多样性(Variety)高速性(Velocity)二.从数据库(Database,DB)到大数据(Big Data,BD)1、数据规模“池塘” 的处理对象通常以MB为基本单位,而“大海” 则常常以GB,甚至TB、PB为基本处理单位。2、数据类型“数据库”,数据的种类单一,往往仅一种或少数几种,这些数据又以结构化数据为主。而在“大数据” 中,数据的种类繁多,包含着结构化、半结构化以及非结构化的数据。
Spark简介
- Spark概述1. 什么是Spark?Spark作为Apache顶级的开源项目,是一个快速、通用的大规模数据处理引擎,和Hadoop的MapReduce计算框架类似,但是相对于MapReduce,Spark凭借其可伸缩、基于内存计算等特点,以及可以直接读写Hadoop上任何格式数据的优势,进行批处理时更加高效,并有更低的延迟。相对于“one stack to rule them all”的目标,实际上,Spark已经成为轻量级大数据快速处理的统一平台,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark建立在不同的存储和运行系统上。
- Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。