豪门霸总狠狠爱

最新推荐文章于 2024-08-29 16:12:55 发布

2301_81285796

最新推荐文章于 2024-08-29 16:12:55 发布

阅读量1.6k

点赞数 53

文章标签： linux 运维服务器

本文链接：https://blog.csdn.net/2301_81285796/article/details/136552837

版权

四.Linux操作系统简单命令实训练习（要有演示）

pwd 命令

格式：pwd

ls 命令

格式：ls [选项] [文件|目录]

功能：显示指定目录中的文件或子目录信息。当不指定文件或目录时，显示当前工作目录中的文件或子目录信息。

命令常用选项如下： -a ：全部的档案，连同隐藏档( 开头为 . 的档案) 一起列出来。 -l ：长格式显示，包含文件和目录的详细信息。 -R ：连同子目录内容一起列出来。说明：命令“ls –l”设置了别名：ll，即输入 ll 命令，执行的是 ls –l

cd 命令

格式：cd

功能：用于切换当前用户所在的工作目录，其中路径可以是绝对路径也可以是相对路径。

mkdir 命令

格式： mkdir [选项] 目录

功能：用于创建目录。创建目录前需保证当前用户对当前路径有修改的权限。参数 -p 用于创建多级文件夹

rm 命令

格式： rm [选项]

功能：用于删除文件或目录，常用选项-r -f，-r 表示删除目录，也可以用于删除文件，-f 表示强制删除，不需要确认。删除文件前需保证当前用户对当前路径有修改的权限。

cp 命令

格式： cp [选项]

功能：复制文件或目录。

mv 命令

格式：mv [选项]

功能：移动文件或对其改名。常用选项-i -f -b，-i 表示若存在同名文件，则向用户询问是否覆盖；-f 直接覆盖已有文件，不进行任何提示；-b 当文件存在时，覆盖前为其创建一个备份。

cat 命令

格式：cat [选项] [文件]

功能：查看文件内容。常用选项：-n 显示行号（空行也编号）。

tar 命令

格式：tar [选项] [档案名] [文件或目录]

功能：为文件和目录创建档案。利用 tar 命令，可以把一大堆的文件和目录全部打包成一个文件，这对于备份文件或将几个文件组合成为一个文件以便于网络传输是非常有用的。该命令还可以反过来，将档案文件中的文件和目录释放出来。

常用选项： -c 建立新的备份文件。 -C 切换工作目录，先进入指定目录再执行压缩/解压缩操作，可用于仅压缩特定目录里的内容或解压缩到特定目录。 -x 从归档文件中提取文件。 -z 通过 gzip 指令压缩/解压缩文件，文件名为*.tar.gz。 -f 指定备份文件。 -v 显示命令执行过程。

useradd 命令

格式：useradd 用户名 10

功能：创建新用户，该命令只能由 root 用户使用。

passwd 命令

格式：passwd 用户名

功能：设置或修改指定用户的口令。

chown 命令

格式：chown [选项]

功能：将文件或目录的拥有者改为指定的用户或组，用户可以是用户名或者用户 ID，组可以是组名或者组 ID，文件是以空格分开的要改变权限的文件列表支持通配符。选项“-R”表示对目前目录下的所有文件与子目录进行相同的拥有者变更。

chmod 命令

格式：chmod [-R] 模式文件或目录

功能：修改文件或目录的访问权限。选项“-R”表示递归设置指定目录下的所有文件和目录的权限。

su 命令

格式：su [-] 用户名

功能：将当前操作员的身份切换到指定用户。如果使用选项“-”，则用户切换后使用新用户的环境变量，否则环境变量不变。

hostname 命令

格式：hostname [选项]

功能：用于显示和设置系统的主机名称。在使用 hostname 命令设置主机名后，系统并不会永久保存新的主机名，重新启动机器之后还是原来的主机名。如果需要永久修改主机名，需要同时修改/etc/hostname 的相关内容。

常用选项： -a 显示主机别名，-i 显示主机的 ip 地址。

hostnamectl 命令

格式 1：hostnamectl 功能：显示当前主机的名称和系统版本。

格式 2：hostnamectl set-hostname 功能：永久设置当前主机的名称。

ip 命令

格式 1：ip link dev 功能：对网络设备（网卡）进行操作，选项 add、delete、show、set 分别对应增加、删除、查看和设置网络设备。

格式 2：ip address dev 功能：对网卡的网络协议地址（IPv4/IPv6）进行操作，选项 add、change、 del、show 分别对应增加、修改、删除、查看 IP 地址。

：systemctl 命令

格式：systemctl service_name.service

功能：管理系统中的服务，“.service”表示管理的服务均包含了一个以 .service 结尾的文件，存放于 /lib/systemd/目录中，可以省略。命令选项有 start、restart、reload、stop、status，分别对应服务的启动、重启、重新加载、停止和显示状态。另外选项 enable 表示开机时启动，disable 表示撤销开机启动。

export 命令

格式：export [选项] [变量名]

功能：用于将 Shell 变量输出为环境变量，或者将 Shell 函数输出为环境变量。一个变量创建时，它不会自动地为在它之后创建的 Shell进程所知，而命令export 可以向后面的 Shell 传递变量的值。当一个Shell 脚本调用并执行时，它不会自动得到父脚本（调用者）里定义的变量的访问权，除非这些变量已经被显式地设置为可用。export 命令可以用于传递一个或多个变量的值到任何子脚本

echo 命令

格式：echo [字符串]

功能：用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前加上$符号的方式提取出变量的值，例如：$PATH然后再用 echo 命令予以出。

source 命令

格式：source [文件]

功能：用于重新执行刚修改的初始化文件，使之立即生效，而不必注销用户,重新登录。

一.介绍Hadoop生态圈配图加文字

1.Hadoop Common是Hadoop体系最底层的一个模块，为Hadoop各个子模块提供各种工具，比如系统配置工具Configuration、远程调用RPC、序列化机制和日志操作等等，是其他模块的基础。

2.HDFS是Hadoop分布式文件系统缩写，它是Hadoop的基石。HDFS是一个具备高度容错性的文件系统，适合部署在廉价的机器上，它能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

3.YARN是统一资源管理和调度平台。它解决了上一代Hadoop资源利用率低和不能兼容异构的计算框架等多种问题。提供了资源隔离方案和双调度器的实现。

4.MapReduce是一种编程模型，利用函数式编程思想，将对数据集的过程分为Map和Reduce两个阶段。MapReduce的这种编程模型非常适合进行分布式计算。Hadoop提供MapReduce的计算框架，实现了这种编程模型，用户可以通过Java\C++\Python\PHP等多种语言进行编程。

5.Spark是加州伯克利大学AMP实验室开发的新一代计算框架，对迭代计算有很大优势，与MapReduce相比性能提升明显，并且可以和Yarn集成，并且还提供了SparkSQL组件。

6.HBase来源于Google的Bigtable论文，HBase是一个分布式的，面向列族的开源数据库。采用了Bigtable的数据模型--列族。HBase擅长大规模数据的随机、实时读写访问。

7.Zookeeper作为一个分布式服务框架，是基于Fast Paxos算法实现，解决分布式系统中一致性的问题。提供了配置维护，名字服务，分布式同步，组服务等。

8.Hive最早是facebook开发并使用的，是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，提供简单的SQL查询功能。并将SQL转为MapReduce作业运行。其有点就是学习成本低。降低了Hadoop的使用门槛。

9.Pig与Hive类似，也是对大数据集进行分析和评估的工具，不同于Hive的是Pig提供了一种高层的，面向领域的抽象语言Pig Latin.同样Pig也可以将Pig Latin转化为MapReduce作业。相比与SQL，Pig Latin更加灵活，但学习成本更高。

10.Impala是Cloudera公司开发，可以对存储HDFS、HBase的海量数据提供交互查询的SQL接口。除了和Hive使用相同的统一存储平台，Impala也使用相同的元数据，SQL语法，ODBC驱动程序和用户界面。Impala还提供了一个熟悉的面向批量或者实时查询的统一平台。Impala的特点是查询非常迅速，其性能大幅度领先于Hive。Impala并不是基于MapReduce的，它的定位是OLAP，是Google的新三驾马车之一Dremel的开源实现。

11.Mahout是一个机器学习和数据挖掘库，它利用MapReduce编程模型实现k-means,Native,Bayes,Collaborative Filtering等经典的机器学习算法，并使其具有良好的可扩展性。

12.Flume是Cloudera提供的一个高可用，高可靠，分布式的海量日志采集、聚合和传输系统，Flume支持在日志系统中定制各类数据发送方，用于数据收集，同时Flume提供对数据进行简单处理并写到各个数据接收方的能力。

13.Sqoop是SQL to Hadoop的缩写，主要作用在于结构化的数据存储与Hadoop之间进行数据双向交换，也就是说，Sqoop可以将关系型数据库的数据导入到HDFS、Hive、也可以从HDFS、Hive导出到关系型数据库中。Sqoop利用了Hadoop的优点，整个导入导出都是由MapReduce计算框架实现并行化，非常高效。

14.Kafka是一种高吞吐量的分布式发布订阅消息系统。具有分布式、高可用的特性，在大数据系统里被广泛使用，如果把大数据系统比作一台机器，那么kafka就是前端总线，它连接了平台中的各个组件。

二.详细介绍spark的生态圈、特点

Spark Core：Spark核心组件，它实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Datasets，简称RDD)的API 定义，RDD是只读的分区记录的集合，只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

　　Spark SQL：用来操作结构化数据的核心组件，通过Spark SQL可以直接查询Hive、HBase等多种外部数据源中的数据。Spark SQL的重要特点是能够统一处理关系表和RDD。在处理结构化数据时，开发人员无需编写MapReduce程序，直接使用SQL命令就能完成更加复杂的数据查询操作。

　　Spark Streaming：Spark提供的流式计算框架，支持高吞吐量、可容错处理的实时流式数据处理，其核心原理是将流数据分解成一系列短小的批处理作业，每个短小的批处理作业都可以使用Spark Core进行快速处理。Spark Streaming支持多种数据源，例如Kafka、Flume以及TCP套接字等数据源。

　　MLlib：Spark提供的关于机器学习功能的算法程序库，包括分类、回归、聚类、协同过滤算法等，还提供了模型评估、数据导入等额外的功能，开发人员只需了解一定的机器学习算法知识就能进行机器学习方面的开发，降低了学习成本。

　　GraphX：Spark提供的分布式图处理框架，拥有对图计算和图挖掘算法的API接口以及丰富的功能和运算符，极大的方便了对分布式图处理的需求，能在海量数据上运行复杂的图算法。

　　独立调度器、Yarn、Mesos：Spark框架可以高效地在一个到数千个节点之间伸缩计算，集群管理器则主要负责各个节点的资源管理工作，为了实现这样的要求，同时获得最大灵活性，Spark支持在各种集群管理器(Cluster Manager)上运行，Hadoop Yarn、Apache Mesos以及Spark自带的独立调度器都被称为集群管理器。

特点：

1. 速度快

　　根据官方数据统计得出，与Hadoop相比，Spark基于内存的运算效率要快100倍以上，基于硬盘的运算效率也要快10倍以上。Spark实现了高效的DAG执行引擎，能够通过内存计算高效地处理数据流。

　　2. 易用性

　　Spark编程支持Java、Python、Scala或R语言，并且还拥有超过80种的高级算法，除此之前，Spark还支持交互式的Shell操作，开发人员可以方便的在Shell客户端中使用Spark集群解决问题。

　　3. 通用性

　　Spark提供了统一的解决方案，适用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)，它们可以在同一个应用程序中无缝的结合使用，大大减少大数据开发和维护的人力成本和部署平台的物力成本。

　　4. 兼容性

　　Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中，并且还可以访问各种数据源，包括本地文件系统、HDFS、Cassandra、HBase和Hive等。

三.详细介绍mapreduce的运行框架并与spark做比较

MapReduce和Spark都是用于大规模数据处理的分布式计算框架，但它们在运行框架、速度、容错性等方面存在一些差异。

MapReduce的运行框架主要包括以下几个组件：

Map阶段：将输入数据切分成小块，分配给不同的Map任务进行处理。每个Map任务独立运行，并产生中间结果。
Shuffle阶段：将Map任务的中间结果进行整合，根据键值对的键进行分区，为Reduce任务做准备。这个阶段包括排序、分组等操作。
Reduce阶段：接收Shuffle阶段的输出结果，并对相同的键进行归约操作，产生最终输出结果。
MapReduce的运行框架基于多进程模型，每个任务运行在独立的进程中。这种模型有助于细粒度控制每个任务占用的资源，但可能会消耗较多的启动时间，不适合运行低延迟类型的作业。另外，MapReduce的中间结果保存在磁盘上，产生了大量的I/O操作，导致效率较低。

相比之下，Spark的运行框架采用了经典的scheduler/workers模式，并采用了多线程模型。每个Spark应用程序运行的第一步是构建一个可重用的资源池，然后在这个资源池里运行所有的ShuffleMapTask和ReduceTask。这种模型使得Spark很适合运行低延迟类型的作业，并且Spark的中间结果保存在内存中，减少了磁盘I/O操作，提高了效率。

此外，Spark相较于MapReduce还具备以下优点：

通用性：Spark提供了多种API（如RDD、DataFrames和Datasets），支持多种编程语言和计算模型（如Scala、Java、Python和SQL），使得开发者可以更加灵活地处理数据。
速度：由于Spark采用了内存计算，以及优化了任务的调度和执行策略，使得其在处理大数据时的性能要优于MapReduce。
容错性：Spark采用了弹性分布式数据集（RDD）的概念，能够自动地恢复由于节点故障导致的数据丢失，保证了计算的容错性。
总之，MapReduce和Spark各有优缺点，选择哪个框架取决于具体的应用场景和需求。对于需要处理大规模数据并且对延迟要求较高的场景，Spark可能是一个更好的选择；而对于需要稳定可靠且对延迟要求不高的场景，MapReduce可能更加适合。

五.解释结构化数据和非结构化数据

结构化数据，简单来说就是数据库。即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。结合到典型场景中更容易理解，比如企业ERP、财务系统;医疗HIS数据库;教育一卡通;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。

非结构化数据，包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中，像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用，这些行业对于存储需求包括数据存储、数据备份以及数据共享等。

六.解释冷备，热备和温备

热备（在线备份）：在数据库运行时直接备份，对数据库操作没有任何影响。

冷备（离线备份）：在数据库停止时进行备份。

温备：在数据库运行时加全局读锁备份，保证了备份数据的一致性，但对性能有影响。

2301_81285796

关注

53
点赞
踩
34

收藏

觉得还不错? 一键收藏
1
评论
豪门霸总狠狠爱

MapReduce和Spark都是用于大规模数据处理的分布式计算框架，但它们在运行框架、速度、容错性等方面存在一些差异。MapReduce的运行框架主要包括以下几个组件：Map阶段：将输入数据切分成小块，分配给不同的Map任务进行处理。每个Map任务独立运行，并产生中间结果。Shuffle阶段：将Map任务的中间结果进行整合，根据键值对的键进行分区，为Reduce任务做准备。这个阶段包括排序、分组等操作。
复制链接

扫一扫