这是一篇关于Hadoop的废话！！！

我要当计算机糕手

已于 2024-03-15 14:07:55 修改

阅读量946

点赞数 22

文章标签： hadoop 大数据分布式

于 2024-03-09 21:20:57 首次发布

本文链接：https://blog.csdn.net/2302_76955238/article/details/136581505

版权

1.Hadoop生态圈相关组件

2.MapReduce的特点及运行架构

MapReduce的特点

3.spark的特点和与MapReduce的区别

4.Linux基础操作命令（搭建Hadoop平台需要）

1.Hadoop生态圈相关组件

Hadoop是较早用于处理大数据集合的分布式存储计算基础架构，目前由Apache软件基金会管理。通过Hadoop，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力执行高速运算和存储。简单地说，Hadoop是一个平台，在它之上可以更容易地开发和运行处理大规模数据的软件。

如图所示：

Hadoop包括以下4个基本模块。

1）Hadoop基础功能库：支持其他Hadoop模块的通用程序包。

2）HDFS：一个分布式文件系统，能够以高吞吐量访问应用中的数据。

3）YARN：一个作业调度和资源管理框架。

4）MapReduce：一个基于YARN的大数据并行处理程序。

除了基本模块，Hadoop还包括以下项目。

1）Ambari：基于Web，用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari还提供显示集群健康状况的仪表盘，如热点图等。Ambari以图形化的方式查看MapReduce、Pig和Hive应用程序的运行情况，因此可以通过对用户友好的方式诊断应用的性能问题。

2）Avro：数据序列化系统。

3）Cassandra：可扩展的、无单点故障的NoSQL多主数据库。

4）Chukwa：用于大型分布式系统的数据采集系统。

5）HBase：可扩展的分布式数据库，支持大表的结构化数据存储。

6）Hive：数据仓库基础架构，提供数据汇总和命令行即席查询功能。

7）Mahout：可扩展的机器学习和数据挖掘库。

8）Pig：用于并行计算的高级数据流语言和执行框架。

9）Spark：可高速处理Hadoop数据的通用计算引擎。Spark提供了一种简单而富有表达能力的编程模式，支持ETL、机器学习、数据流处理、图像计算等多种应用。

10）Tez：完整的数据流编程框架，基于YARN建立，提供强大而灵活的引擎，可执行任意有向无环图（DAG）数据处理任务，既支持批处理又支持交互式的用户场景。Tez已经被Hive、Pig等Hadoop生态圈的组件所采用，用来替代 MapReduce作为底层执行引擎。

11）ZooKeeper：用于分布式应用的高性能协调服务。

除了以上这些官方认可的Hadoop生态圈组件之外，还有很多十分优秀的组件这里没有介绍，这些组件的应用也非常广泛，例如基于Hive查询优化的Presto、Impala、Kylin等。

此外，在Hadoop生态圈的周边，还聚集了一群“伙伴”，它们虽然未曾深入融合Hadoop生态圈，但是和Hadoop有着千丝万缕的联系，并且在各自擅长的领域起到了不可替代的作用。图2是阿里云E-MapReduce平台整合的Hadoop生态体系中的组件，比Apache提供的组合更为强大。

下面简单介绍其中比较重要的成员。

1）Presto：开源分布式SQL查询引擎，适用于交互式分析查询，数据量支持GB到PB级。Presto可以处理多数据源，是一款基于内存计算的MPP架构查询引擎。

2）Kudu：与HBase类似的列存储分布式数据库，能够提供快速更新和删除数据的功能，是一款既支持随机读写，又支持OLAP分析的大数据存储引擎。

3）Impala：高效的基于MPP架构的快速查询引擎，基于Hive并使用内存进行计算，兼顾ETL功能，具有实时、批处理、多并发等优点。

4）Kylin：开源分布式分析型数据仓库，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力，支持超大规模数据的压秒级查询。

5）Flink：一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎，是实时处理领域的新星。

6）Hudi：Uber开发并开源的数据湖解决方案，Hudi（Hadoop updates and incrementals）支持HDFS数据的修改和增量更新操作。

2.MapReduce的特点及运行架构

和HDFS一样，MapReduce也是採用Master/Slave的架构，其架构图例如以下所看到的。

MapReduce的特点

1.易于编程。它简单的实现一些接口，就可以完成一个分布式程序，这个分布式程序可以分布到大量廉价的PC机器运行。也就是说你写一个分布式程序，跟写一个简单的串行程序是一模一样的。就是因为这个特点，使得 MapReduce 编程变得非常流行。

2.良好的扩展性。当你的计算资源不能得到满足的时候，你可以通过简单的增加机器来扩展它的计算能力。

3.高容错性。 MapReduce 设计的初衷就是使程序能够部署在廉价的PC机器上，这就要求它具有很高的容错性。比如其中一台机器挂了，它可以把上面的计算任务转移到另外一个节点上运行，不至于使这个任务运行失败，而且这个过程不需要人工干预，完全是由 Hadoop 内部完成的

4.能对PB级以上海量数据进行离线处理。适合离线处理而不适合实时处理，比如要求毫秒级别的返回一个结果， MapReduce 很难做到。

原文链接：https://blog.csdn.net/Shockang/article/details/117767356

3.spark的特点和与MapReduce的区别

1.快速：Spark在内存中的运行速度是Hadoop MapReduce运行速度的100多倍，Spark在磁盘中的运行速度是Hadoop MapReduce运行速度的10多倍。Spark的中心数据存放于内存中，有更高的迭代运算效率，而Hadoop MapReduce每次迭代的中间数据存放在HDFS中，涉及硬盘的读写，运算效率相对较低

2.易用：Spark支持使用Scala、Python、Java、R等语言快速编写应用。此外。Spark提供超过80个高阶算子，使得编写并行应用程序变的简单。而Hadoop MapReduce只支持Scala。

3.通用：Spark框架包含多个紧密集成的组件，包括Spark SQL（即席查询）、Spark Streaming（实时流处理）、Spark MLlib（机器学习库）、Spark GraphX（图计算），并且Spark支持在一个应用中同时使用这些组件。

4.随处运行：用户可以使用Spark的独立集群模式运行Spark，随时随地，这里不多加赘述。

5.代码简洁：Spark一般都使用Sacla或Python编写应用程序。MapReduce实现单词计数可能需要60多行代码，而Spark使用Salca语言实现只需要一行

4.Linux基础操作命令（搭建Hadoop平台需要）

文件与目录操作:

pwd 命令

格式：pwd

[root@centos ~]# pwd

实例：

ls 命令

格式：ls [选项] [文件|目录]

功能：显示指定目录中的文件或子目录信息。当不指定文件或目录时，显示当前工作目录中的文件或子目录信息。

命令常用选项如下：

-a ：全部的档案，连同隐藏档( 开头为 . 的档案) 一起列出来。

-l ：长格式显示，包含文件和目录的详细信息。

-R ：连同子目录内容一起列出来。

说明：命令“ls –l”设置了别名：ll，即输入 ll 命令，执行的是 ls –l 4 命令。

[root@centos /]# ls –a

实例：

[root@centos /]# ls –l

实例：

[root@centos opt]# ls –R

实例：

cd 命令

格式：cd

功能：用于切换当前用户所在的工作目录，其中路径可以是绝对路径也可以是相对路径。

[root@centos ~]# cd /etc/

实例：

Mkdir 命令

格式： mkdir [选项] 目录

功能：用于创建目录。创建目录前需保证当前用户对当前路径有修改的权限。参数 -p 用于创建多级文件夹。

[root@centos ~]# mkdir linux

[root@centos ~]# ls

anaconda-ks.cfg  linux

实例：

rm 命令

格式： rm [选项]

功能：用于删除文件或目录，常用选项-r -f，-r 表示删除目录，也可以用于删除文件，-f 表示强制删除，不需要确认。删除文件前需保证当前用户对当前路径有修改的权限。

[root@centos ~]# rm -rf linux

实例：

cp 命令

格式： cp [选项]

功能：复制文件或目录。

[root@centos ~]# cp /linux/text /opt/

实例：

复制一个目录需加选项 –r

mv 命令

格式：mv [选项]

功能：移动文件或对其改名。常用选项-i -f -b，-i 表示若存在同名文件，则向用户询问是否覆盖；-f 直接覆盖已有文件，不进行任何提示；-b 当文件存在时，覆盖前为其创建一个备份。

[root@centos ~]# mv /linux/text /

实例：

cat 命令

格式：cat [选项] [文件]

功能：查看文件内容。常用选项：-n 显示行号（空行也编号）。

[root@centos mnt]# cat -n text

实例：

tar 命令

格式：tar [选项] [档案名] [文件或目录]

功能：为文件和目录创建档案。利用 tar 命令，可以把一大堆的文件和目录全部打包成一个文件，这对于备份文件或将几个文件组合成为一个文件以便于网络传输是非常有用的。该命令还可以反过来，将档案文件中的文件和目录释放出来。

常用选项：

-c 建立新的备份文件。

-C 切换工作目录，先进入指定目录再执行压缩/解压缩操作，可用于仅压缩特定目录里的内容或解压缩到特定目录。

-x 从归档文件中提取文件。

-z 通过 gzip 指令压缩/解压缩文件，文件名为*.tar.gz。

-f 指定备份文件。

-v 显示命令执行过程。

[root@localhost ~]# ls

实例：

[root@localhost ~]# tar Docker.tar.gz

实例：

[root@localhost ~]# tar  -zxvf  Docker.tar.gz -C /opt/

实例：

[root@localhost ~]# ls /opt/

实例：

用户操作：

useradd 命令和 passwd 命令

格式：useradd 用户名

功能：创建新用户，该命令只能由 root 用户使用。

格式：passwd 用户名

功能：设置或修改指定用户的口令。

[root@centos ~]# useradd xiaoming

[root@centos ~]# passwd 123456 #设置用户密码

[root@centos ~]# passwd xiaoming #更改指定用户密码，暗文显示，两次确认

实例：

chown 命令

格式：chown [选项]

功能：将文件或目录的拥有者改为指定的用户或组，用户可以是用户名或者用户 ID，组可以是组名或者组 ID，文件是以空格分开的要改变权限的文件列表支持通配符。选项“-R”表示对目前目录下的所有文件与子目录进行相同的拥有者变更。

[root@centos ~]# chown xiaoming:xiaoming text

实例：

chmod 命令

格式：chmod [-R] 模式文件或目录

功能：修改文件或目录的访问权限。选项“-R”表示递归设置指定目录下的所有文件和目录的权限。模式为文件或目录的权限表示，有三种表示方法。

数字表示用 3 个数字表示文件或目录的权限，第 1 个数字表示所有者的权限，第 2个数字表示与所有者同组用户的权限，第 3 个数字表示其他用户的权限。每类用户都有 3 类权限：读、写、执行，对应的数字分别是 4、2、1。一个用户的权限数字表示为三类权限的数字之和，如一个用户对 A 文件拥有读写权限，则这个用户的权限数字为 6（4+2=6）。

[root@centos ~]# chmod 777 text

实例：

字符赋值用字符 u 表示所有者，用字符 g 表示与所有者同组用户，用字符 o 表示其他用户。用字符 r、w、x 分别表示读、写、执行权限。用等号“=”来给用户赋权限。

[root@centos ~]# chmod u=rwx,g=rw,o=r text

实例：

su 命令

格式：su [-] 用户名

功能：将当前操作员的身份切换到指定用户。如果使用选项“-”，则用户切换后使用新用户的环境变量，否则环境变量不变。

[root@centos ~]# su – xiaoming

实例：

exit退出

root用户切换普通用户不需要密码，普通用户切其他普通用户或者root用户需要密码

文本操作：

文本编辑器这里只介绍一个 vi 命令，vim 命令的操作与 vi 一样。

格式：vi [文件名]

功能：vi 是 Linux 的常用文本编辑器，vim 是从 vi 发展出来的一个文本编辑器，其在代码补全、编译等方便的功能特别丰富，在程序员中被广泛使用。

vi/vim 有三个工作模式：

命令模式用户刚刚启动 vi/vim，便进入了命令模式。此状态下敲击键盘动作会被 vi 识别为命令，而非输入字符。以下是常用的几个命令：

i 切换到输入模式，以输入字符。

x 删除当前光标所在处的字符。

: 切换到末行模式，用以在最底一行输入命令

[root@centos ~]# vi text

之后输入 i、x 或:会有相应的效果

输入模式

实例

左下角显示INSERT表示进入写入模式

在输入模式下可以对文件执行写操作，编写完成后按 Esc 键即可返回命令模式。

末行模式

如果要保存、查找或者替换一些内容等，就需要进入末行模式。以下是常用的几个命令：

Set nu：每一行显示行号

r 文件名：读取指定的文件。

w 文件名：将编辑内容保存到指定的文件内。

q：退出 vi

wq：保存文件并退出 vi

q!：强制退出 vi，不管是否保存文档内容。（x：强制保存推出）

系统操作：

clear 命令

格式：clear

功能：清除屏幕。实质上只是让终端显示页向后翻了一页，如果向上滚动屏幕还可以看到之前的操作信息。

[root@centos ~]# clear

实例

hostname 命令

格式：hostname [选项]

功能：用于显示和设置系统的主机名称。在使用 hostname 命令设置主机名后，系统并不会永久保存新的主机名，重新启动机器之后还是原来的主机名。如果需要永久修改主机名，需要同时修改/etc/hostname 的相关内容。

常用选项：

-a 显示主机别名，

-i 显示主机的 ip 地址。

[root@centos ~]# hostname

实例：

[root@centos ~]# hostname –i

实例

hostnamectl 命令

格式 1：hostnamectl

功能：显示当前主机的名称和系统版本。

格式 2：hostnamectl set-hostname

功能：永久设置当前主机的名称。

[root@centos ~]# hostnamectl set-hostname xaioming

实例：

ip 命令

CentOS 7 已不使用 ifconfig 命令，其功能可通过 ip 命令代替。

格式 1：ip link dev

功能：对网络设备（网卡）进行操作，选项 add、delete、show、set 分别对应增加、删除、查看和设置网络设备。

[root@xaioming ~]# ip link show

实例：

格式 2：ip address dev

功能：对网卡的网络协议地址（IPv4/IPv6）进行操作，选项 add、change、 del、show 分别对应增加、修改、删除、查看 IP 地址。

示例： #这里将 address 缩写为 addr

[root@xaioming ~]# ip link show

实例：

[root@xaioming ~]# ip a(一般都习惯这种)

实例

systemctl 命令

格式：systemctl service_name.service

功能：管理系统中的服务，“.service”表示管理的服务均包含了一个以 .service 结尾的文件，存放于 /lib/systemd/目录中，可以省略。命令选项有 start、restart、reload、stop、status，分别对应服务的启动、重启、重新加载、停止和显示状态。另外选项 enable 表示开机时启动，disable 表示撤销开机启动。

#启动网络服务

[root@xaioming ~]# systemctl start network

#关闭防火墙，注意 CentOS 7 的防火墙服务名称改为 firewalld

[root@localhost ~]# systemctl stop firewalld

#查看 ssh 服务的状态

[root@localhost ~]# systemctl status sshd

#设置 ssh 服务开机启动

[root@localhost ~]# systemctl enable sshd

reboot 命令

格式： reboot

功能：用于重新启动计算机，但是机器重启必须要 root 用户才有权限。

注意:本操作无需在平台系统执行

[root@master ~]# reboot

poweroff 命令

格式：poweroff

功能：用来关闭计算机操作系统并且切断系统电源。如果确认系统中已经没

有用户存在且所有数据都已保存，需要立即关闭系统，可以使用 poweroff

命令。

注意:本操作无需在平台系统执行

[root@master ~]# poweroff

export 命令

格式：export [选项] [变量名]

功能：用于将 Shell 变量输出为环境变量，或者将 Shell 函数输出为环境变

量。一个变量创建时，它不会自动地为在它之后创建的 Shell进程所知，而

命令export 可以向后面的 Shell 传递变量的值。当一个Shell 脚本调用并执行

时，它不会自动得到父脚本（调用者）里定义的变量的访问权，除非这些变

量已经被显式地设置为可用。export 命令可以用于传递一个或多个变量的值

到任何子脚本。

常用选项：

-f 代表[变量名称]中为函数名称。

-n 删除指定的变量。变量实际上并未删除，只是不会输出到后续指令的执行

环境中。

-p 列出所有的 Shell 赋予程序的环境变量。

示例：

[root@localhost ~]# export -p #列出当前所有的环境变量

实例：

[root@localhost ~]# export MYENV=8 #定义环境变量，并赋值 MYENV=8

实例：

echo命令

格式：echo [字符串]

功能：用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前

加上$符号的方式提取出变量的值，例如：$PATH然后再用 echo 命令予以

出。

示例：

#输出一段字符串 LinuxCool.com

[root@localhost ~]# echo "LinuxCool.com"

实例：

#输出变量 PATH 值

[root@localhost ~]# echo #PATH

source 命令

格式：source [文件]

功能：用于重新执行刚修改的初始化文件，使之立即生效，而不必注销用

户,重新登录。

示例： #读取和执行/etc/profile 文件

[root@localhost ~]# source /etc/profile

实例：

5.冷备温备热备

热备（在线备份）：在数据库运行时直接备份，对数据库操作没有任何影响。

冷备（离线备份）：在数据库停止时进行备份。

温备：在数据库运行时加全局读锁备份，保证了备份数据的一致性，但对性能有影响。

热备、冷备、温备_bars通过什么实现温备-CSDN博客

6.数据类型

Scala语言和Java类似，数据类型也是大同小异

Java八大数据类型：
（1）整数类型：byte、short、int、long
（2）小数类型：float、double
（3）字符类型：char
（4）布尔类型：boolean

具体可以看下面这篇文章：

八大基本数据类型（超详细）-CSDN博客

我要当计算机糕手

关注

22
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

这是一篇关于Hadoop的废话！！！

1.Hadoop生态圈相关组件

2.MapReduce的特点及运行架构

MapReduce的特点

3.spark的特点和与MapReduce的区别

4.Linux基础操作命令（搭建Hadoop平台需要）

文件与目录操作:

用户操作：

文本操作：

系统操作：

5.冷备 温备 热备

6.数据类型

5.冷备温备热备