【作业】上辈子我是月入十万的程序员大佬，可惜老板陷害，女友背叛，这一次属于我的一切都要拿回来

最新推荐文章于 2024-06-14 17:37:13 发布

前端好喜欢你

最新推荐文章于 2024-06-14 17:37:13 发布

阅读量895

点赞数 25

分类专栏：程序员文章标签：运维学习面试

本文链接：https://blog.csdn.net/m0_60388149/article/details/138737668

版权

程序员专栏收录该内容

181 篇文章 1 订阅

订阅专栏

最全的Linux教程，Linux从入门到精通

======================

linux从入门到精通(第2版)
Linux系统移植
Linux驱动开发入门与实战
LINUX 系统移植第2版
Linux开源网络全栈详解从DPDK到OpenFlow

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

第一份《Linux从入门到精通》466页

====================

内容简介

====

本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。本书第1版出版后曾经多次印刷，并被51CTO读书频道评为“最受读者喜爱的原创IT技术图书奖”。本书第﹖版以最新的Ubuntu 12.04为版本，循序渐进地向读者介绍了Linux 的基础应用、系统管理、网络应用、娱乐和办公、程序开发、服务器配置、系统安全等。本书附带1张光盘，内容为本书配套多媒体教学视频。另外,本书还为读者提供了大量的Linux学习资料和Ubuntu安装镜像文件，供读者免费下载。

华为18级工程师呕心沥血撰写3000页Linux学习笔记教程

本书适合广大Linux初中级用户、开源软件爱好者和大专院校的学生阅读，同时也非常适合准备从事Linux平台开发的各类人员。

需要《Linux入门到精通》、《linux系统移植》、《Linux驱动开发入门实战》、《Linux开源网络全栈》电子书籍及教程的工程师朋友们劳烦您转发+评论

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

map和reduce是最重要的两个步骤

Map步骤是在不同的机器上独立且同步运行的。主要目的是要把数据转换为key-value的形式
Reduce步骤是做聚合运算，它是在不同机器上独立且同步运行的
Map 和 Reduce 中间夹杂着一步数据移动，也就是 shuffle，这步操作会涉及数量巨大的网络传输，需要大量的时间
由于 MapReduce 的框架限制，一个 MapReduce 任务只能包含一次 Map 和一次 Reduce，计算完成之后，MapReduce 会将运算结果写回到磁盘中（更准确地说是分布式存储系统）供下次计算使用。

在MapReduce 框架下，数据的格式都是key-value 形式

（2）Spark的运行框架：

由三个主要组件组成：Driver节点、Cluster Manager和Executor节点。

Driver节点是应用程序的入口点，它负责解析用户的应用程序代码，并将任务划分成一系列的任务（stage），以及在集群上为任务安排调度。Driver节点负责管理各个任务之间的依赖关系，并将它们转换成一个可执行的物理执行计划（DAG）
Cluster Manager负责在集群中为应用程序分配资源。它可以是Standalone，YARN或Mesos等。
Executor节点负责在工作节点上执行任务。每个Executor都运行在自己的JVM进程中，并且为应用程序分配了一定数量的内存和CPU资源。Executor在运行过程中负责接收和执行任务。

2.MapReduce与spark的对比

内存计算

spark 将数据存储在内存中进行计算；MapReduce 将数据存储在磁盘上。

由于内存访问速度更快，spark 在处理迭代计算和交互式查询等工作负载时通常比 MapReduce 更高效。

Spark 基于内存的计算：

Spark中我们有一种优化策略：移动计算、不移动数据。旨在减少数据传输的开销，提高计算效率。其核心思想是将计算任务尽可能的放在数据所在的节点上执行，而不是将数据传输到计算节点。具体来说，包括下面两个方面：

数据本地性：

Spark 会尽量将计算任务分配到存储有数据的节点上，以利用数据的本地性。这样可以减少数据传输的开销。通过在数据所在节点上执行计算任务，可以避免将数据传输到其他节点，从而提高计算性能。

任务调度：

Spark 不会移动实际的数据。数据仍然保留在存储节点上，只有计算任务被分发到存储数据的节点上执行。

MapReduce基于磁盘的计算：

数据读取：

输入数据从磁盘读取到内存中进行处理。也就是说，每次需要处理数据时，都需要从磁盘读取相应的数据块到内存中进行计算操作。

中间结果存储：

MapReduce 框架会将 Map 和 Reduce 阶段的中间结果存储在磁盘上。在 Map 阶段，将 Map 任务的输出写入磁盘中的临时文件。在 Reduce 阶段，Reduce 任务会从磁盘上读取中间结果，并根据键值对进行合并和排序。

数据持久性：

将数据存储在持久化的磁盘介质上，及时在节点故障或计算过程中断的情况下，数据也能够持久保存。这样可以确保数据的可靠性和容错性。

执行速度

Spark 的内存计算特性和基于DAG有向无环图的执行模型，通常比 MapReduce 更快。Spark可以在内存中保留数据和计算结果，并通过多个任务合并为更少的阶段来减少磁盘的读写开销。

API 和编程模型

Spark提供了丰富的API，包括 scala、Java、Python等。开发起来更加灵活、表达能力更强。而 MapReduce 使用 Java 编程语言来编写 Map 和 Reduce 函数，需要手动编写更多的代码来实现处理逻辑。

扩展性

Spark 有更好的扩展性，可以方便的与其他数据处理框架和工具集成。如：Spark Streaming用于流处理、Spark SQL 用于查询和结构化数据处理、Spark MLlib用于机器学习等。

容错性

Spark提供了弹性式分布数据集RDD，具有自动容错和数据恢复机制。能够在节点故障时重新计算丢失的数据。

MapReduce 需要在每个任务的开始和结束时将数据写入磁盘，因此在故障情况下需要重新启动整个计算。

什么是容错性？
容错性是指系统在面对故障、错误或者异常情况时能够保持正常运行，并能够从故障中恢复或继续进行操作的能力。数据在处理中，由于数据规模庞大、且分布在多个计算节点上，节点故障可能导致任务中断或数据丢失。

四.Linux基础命令

1.pwd 命令

格式：pwd 功能：显示当前所在目录（即工作目录）。

[root@localhost ~]# pwd

2.ls命令

格式：ls [选项] [文件|目录]

功能：显示指定目录中的文件或子目录信息。当不指定文件或目录时，显示当前工作目录中的文件或子目录信息。

命令常用选项如下： -a ：全部的档案，连同隐藏档( 开头为 . 的档案) 一起列出来。

-l ：长格式显示，包含文件和目录的详细信息。

-R ：连同子目录内容一起列出来。

说明：命令“ls –l”设置了别名：ll，即输入 ll 命令，执行的是 ls –l

3.cd命令

格式：cd 路径>

功能：用于切换当前用户所在的工作目录，其中路径可以是绝对路径也可以是相对路径。

4.mkdir命令

格式： mkdir [选项] 目录

功能：用于创建目录。

创建目录前需保证当前用户对当前路径有修改的权限。参数 -p 用于创建多级文件夹。

5.cp命令

格式： cp [选项] 文件> 目标文件>

功能：复制文件或目录。

6.cat命令

格式：cat [选项] [文件]

功能：查看文件内容。

常用选项：-n 显示行号（空行也编号）。

7.tar命令

格式：tar [选项] [档案名] [文件或目录]

功能：为文件和目录创建档案。利用 tar 命令，可以把一大堆的文件和目录全部打包成一个文件，这对于备份文件或将几个文件组合成为一个文件以便于网络传输是非常有用的。该命令还可以反过来，将档案文件中的文件和目录释放出来。

常用选项：

-c 建立新的备份文件。

-C 目录> 切换工作目录，先进入指定目录再执行压缩/解压缩操作，可用于仅压缩特定目录里的内容或解压缩到特定目录。

-x 从归档文件中提取文件。

-z 通过 gzip 指令压缩/解压缩文件，文件名为*.tar.gz。

-f备份文件> 指定备份文件。 -v 显示命令执行过程。

8.useradd命令

格式：useradd 用户名

功能：创建新用户，该命令只能由 root 用户使用。

9.passwd命令

格式：passwd 用户名

功能：设置或修改指定用户的口令。

[root@localhost ~]# passwd teacher 更改用户 teacher 的密码。

新的密码：

无效的密码：密码是一个回文

重新输入新的密码：

passwd：所有的身份验证令牌已经成功更新。

10.hostnamectl命令

格式 1：hostnamectl

功能：显示当前主机的名称和系统版本。

格式 2：hostnamectl set-hostname

功能：永久设置当前主机的名称。

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以点击这里获取！

前端好喜欢你

关注

25
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
【作业】上辈子我是月入十万的程序员大佬，可惜老板陷害，女友背叛，这一次属于我的一切都要拿回来

最全的Linux教程，Linux从入门到精通第一份《Linux从入门到精通》466页内容简介====本书是获得了很多读者好评的Linux经典畅销书**《Linux从入门到精通》的第2版**。本书第1版出版后曾经多次印刷，并被51CTO读书频道评为“最受读者喜爱的原创IT技术图书奖”。本书第﹖版以最新的Ubuntu 12.04为版本，循序渐进地向读者介绍了Linux 的基础应用、系统管理、网络应用、娱乐和办公、程序开发、服务器配置、系统安全等。本书附带1张光盘，内容为本书配套多媒体教学视频。
复制链接

扫一扫