升级打怪之早日走上富婆之路

技能一:Hadoop生态圈

一、hadoop生态圈
  我们通常说到的hadoop包括两部分,一是Hadoop核心技术(或者说狭义上的hadoop),对应为apache开源社区的一个项目,主要包括三部分内容:hdfsmapreduceyarn。其中hdfs用来存储海量数据,mapreduce用来对海量数据进行计算,yarn是一个通用的资源调度框架(是在hadoop2.0中产生的)。

  另一部分指广义的,广义上指一个生态圈,泛指大数据技术相关的开源组件或产品,如hbase、hive、spark、pig、zookeeper、kafka、flume、phoenix、sqoop等。

  生态圈中的这些组件或产品相互之间会有依赖,但又各自独立。比如habse和kafka会依赖zookeeper,hive会依赖mapreduce。

技能二:spark的生态圈、特点

spark生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法(Algorithms)、机器(Machines)、人(People)之间通过大规模集成来展现大数据应用的平台。

        如图 1所示,Spark 生态圈以 Spark Core 为核心,从 HDFS、Amazon S3 和 HBase 等持久层读取数据,以 Mesos、YARN 和自身携带的 Standalone 为 Cluster Manager 调度 Job 完成 Spark 应用程序的计算,这些应用程序可以来自于不同的组件。

        如 Spark Shell/Spark Submit 的批处理,Spark Streaming 的实时处理应用,Spark SQL 的即席查询,MLlib 的机器学习,GraphX 的图处理和 SparkR 的数学计算等。


                                                        

Spark特点:Spark具有运行速度快、易用性好、通用性强和随处运行等特点

技能三:Mapreduce的运行框架,spark和mapreduce巅峰对决

Mapreduce运行框架

1、框架图

Input→Mapper→shuffle→Reducer→Output

 2.【Spark和MapReduce对比】

   

【总结】
尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop
1、在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR构架,比如非常成熟的Hive,hive的底层默认是MapReduce,但是可以经过与spark重新编译后,底层计算框架换成spark。
2、Spark仅做计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据
体系的核心架构。

技能四:秀一波操作

技能五:结构化数据和非结构化数据

1.结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

2.非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。 

技能六:解释冷备和热备

1.热备:数据库运行时备份,实时的。例如:Oracle中的主备模式,备库实时同步主库数据。
2.冷备:数据库停止后备份,非实时。例如:数据库停止了,再去拷贝物理文件。

  

  • 19
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值