三八妇女节第二次上课第一次作业

最新推荐文章于 2024-07-25 23:52:03 发布

Meteor_ilxy

最新推荐文章于 2024-07-25 23:52:03 发布

阅读量1.5k

点赞数 24

文章标签： linux 运维服务器

本文链接：https://blog.csdn.net/Meteor_ilxy/article/details/136554798

版权

一.hadoop生态圈介绍

Hadoop的核心组件是HDFS、MapReduce。随着处理任务不同，各种组件相继出现，丰富Hadoop生态圈，目前生态圈结构大致如图所示：

二.spark生态圈介绍

Spark 生态系统以Spark Core 为核心，能够读取传统文件（如文本文件）、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源，利用Standalone、YARN 和Mesos 等资源调度管理，完成应用程序分析与处理。这些应用程序来自Spark 的不同组件，如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理应用、Spark SQL 的即席查询、采样近似查询引擎BlinkDB 的权衡查询、MLbase/MLlib 的机器学习、GraphX 的图处理和SparkR 的数学计算等，如下图所示，正是这个生态系统实现了“One Stack to Rule Them All”目标

三.mapreduce的运行框架

MapReduce是一个分布式运算程序的编程框架。
优点：易于编程、有良好的扩展性、具有高容错性、适合PB级以上海量数据的离线处理。

缺点：不擅长实时计算、不擅长流式计算、不擅长DAG计算（DAG有向图MR也可以做，只是每个作业的输出结果都会写入磁盘，这样会造成大量的IO而导致性能降低）。

四.MapReduce和Spark的本质区别

MR只能做离线计算，如果实现复杂计算逻辑，一个MR搞不定，就需要将多个MR按照先后顺序连成一串，一个MR计算完成后会将计算结果写入到HDFS中，下一个MR将上一个MR的输出作为输入，这样就要频繁读写HDFS，网络IO和磁盘IO会成为性能瓶颈。从而导致效率低下。

spark既可以做离线计算，有可以做实时计算，提供了抽象的数据集（RDD、Dataset、DataFrame、DStream）有高度封装的API，算子丰富，并且使用了更先进的DAG有向无环图调度思想，可以对执行计划优化后在执行，并且可以数据可以cache到内存中进行复用。

五.Linux操作系统简单命令实训练习

1.pwd命令

2.ls命令

3.cd命令

4.mkdir命令

5.rm命令

6.cp命令

7.mv命令

8.cat命令

9.tar命令

10.useradd命令

11.passwd命令

12.chown命令

13.chmod命令

14.su命令

15.vi命令

1.命令模式

2.输入模式

3.末行模式

16.clear命令（功能：清除屏幕）

都清除了还看个der

17.hostname，hostnamectl命令

18.ip命令

19.systemctl命令

六.解释结构化数据与非结构化数据

结构化数据：即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。

非结构化数据：不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

七.解释冷备，热备和温备

热备：一般用于保证服务正常不间断运行，用两台机器作为服务机器，一台用于实际数据库操作应用,另外一台实时的从前者中获取数据以保持数据一致.如果当前的数据库当机了,备份的数据库立马取代当前的数据库继续提供服务。跟MySQL的主从里的一主一从一样，主数据库宕机之后，从数据库就会取代主数据库去维护业务不中断。

冷备：在数据库停止运行的时候进行备份，这种备份方式最为简单，只需要拷贝数据库里的数据。

温备：在数据库运行的时候进行备份的，但对当前数据库的操作会产生影响。