技能一:Hadoop生态圈
一、hadoop生态圈
我们通常说到的hadoop包括两部分,一是Hadoop核心技术(或者说狭义上的hadoop),对应为apache开源社区的一个项目,主要包括三部分内容:hdfs,mapreduce,yarn。其中hdfs用来存储海量数据,mapreduce用来对海量数据进行计算,yarn是一个通用的资源调度框架(是在hadoop2.0中产生的)。
另一部分指广义的,广义上指一个生态圈,泛指大数据技术相关的开源组件或产品,如hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop等。
生态圈中的这些组件或产品相互之间会有依赖,但又各自独立。比如habse和kafka会依赖zookeeper,hive会依赖mapreduce。
技能二:spark的生态圈、特点
spark生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。
如图 1所示,Spark 生态圈以 Spark Core 为核心,从 HDFS、Amazon S3 和 HBase 等持久层读取数据,以 Mesos、YARN 和自身携带的 Standalone 为 Cluster Manager 调度 Job 完成 Spark 应用程序的计算,这些应用程序可以来自于不同的组件。
如 Spark Shell/Spark Submit 的批处理,Spark Streaming 的实时处理应用,Spark SQL 的即席查询,MLlib 的机器学习,GraphX 的图处理和 SparkR 的数学计算等。
Spark特点:Spark具有运行速度快、易用性好、通用性强和随处运行等特点
技能三:Mapreduce的运行框架,spark和mapreduce巅峰对决
Mapreduce运行框架
Input→Mapper→shuffle→Reducer→Output
2.【Spark和MapReduce对比】
【总结】
尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop
1、在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR构架,比如非常成熟的Hive,hive的底层默认是MapReduce,但是可以经过与spark重新编译后,底层计算框架换成spark。
2、Spark仅做计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据
体系的核心架构。
技能四:秀一波操作
技能五:结构化数据和非结构化数据
1.结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
2.非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
技能六:解释冷备和热备
1.热备:数据库运行时备份,实时的。例如:Oracle中的主备模式,备库实时同步主库数据。
2.冷备:数据库停止后备份,非实时。例如:数据库停止了,再去拷贝物理文件。