一.hadoop生态圈介绍
Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同,各种组件相继出现,丰富Hadoop生态圈,目前生态圈结构大致如图所示:
二.spark生态圈介绍
Spark 生态系统以Spark Core 为核心,能够读取传统文件(如文本文件)、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源,利用Standalone、YARN 和Mesos 等资源调度管理,完成应用程序分析与处理。这些应用程序来自Spark 的不同组件,如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和SparkR 的数学计算等,如下图所示,正是这个生态系统实现了“One Stack to Rule Them All”目标
三.mapreduce的运行框架
MapReduce是一个分布式运算程序的编程框架。
优点:易于编程、有良好的扩展性、具有高容错性、适合PB级以上海量数据的离线处理。
缺点:不擅长实时计算、不擅长流式计算、不擅长DAG计算(DAG有向图MR也可以做,只是每个作业的输出结果都会写入磁盘,这样会造成大量的IO而导致性能降低)。
四.MapReduce和Spark的本质区别
MR只能做离线计算,如果实现复杂计算逻辑,一个MR搞不定,就需要将多个MR按照先后顺序连成一串,一个MR计算完成后会将计算结果写入到HDFS中,下一个MR将上一个MR的输出作为输入,这样就要频繁读写HDFS,网络IO和磁盘IO会成为性能瓶颈。从而导致效率低下。
spark既可以做离线计算,有可以做实时计算,提供了抽象的数据集(RDD、Dataset、DataFrame、DStream)有高度封装的API,算子丰富,并且使用了更先进的DAG有向无环图调度思想,可以对执行计划优化后在执行,并且可以数据可以cache到内存中进行复用。
五.Linux操作系统简单命令实训练习
1.pwd命令
2.ls命令
3.cd命令
4.mkdir命令
5.rm命令
6.cp命令
7.mv命令
8.cat命令
9.tar命令
10.useradd命令
11.passwd命令
12.chown命令
13.chmod命令
14.su命令
15.vi命令
1.命令模式
2.输入模式
3.末行模式
16.clear命令(功能:清除屏幕)
都清除了还看个der
17.hostname,hostnamectl命令
18.ip命令
19.systemctl命令
六.解释结构化数据与非结构化数据
结构化数据:即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。
非结构化数据:不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
七.解释冷备,热备和温备
热备:一般用于保证服务正常不间断运行,用两台机器作为服务机器,一台用于实际数据库操作应用,另外一台实时的从前者中获取数据以保持数据一致.如果当前的数据库当机了,备份的数据库立马取代当前的数据库继续提供服务。跟MySQL的主从里的一主一从一样,主数据库宕机之后,从数据库就会取代主数据库去维护业务不中断。
冷备:在数据库停止运行的时候进行备份,这种备份方式最为简单,只需要拷贝数据库里的数据。
温备:在数据库运行的时候进行备份的,但对当前数据库的操作会产生影响。