这是一篇关于Hadoop的废话!!!

目录

1.Hadoop生态圈相关组件

2.MapReduce的特点及运行架构

MapReduce的特点

3.spark的特点和与MapReduce的区别

4.Linux基础操作命令(搭建Hadoop平台需要)

文件与目录操作:

用户操作:

文本操作:

系统操作:

5.冷备 温备 热备

6.数据类型


1.Hadoop生态圈相关组件

        Hadoop是较早用于处理大数据集合的分布式存储计算基础架构,目前由Apache软件基金会管理。通过Hadoop,用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力执行高速运算和存储。简单地说,Hadoop是一个平台,在它之上可以更容易地开发和运行处理大规模数据的软件。

如图所示:

Hadoop包括以下4个基本模块。

1)Hadoop基础功能库:支持其他Hadoop模块的通用程序包。

2)HDFS:一个分布式文件系统,能够以高吞吐量访问应用中的数据。

3)YARN:一个作业调度和资源管理框架。

4)MapReduce:一个基于YARN的大数据并行处理程序。

除了基本模块,Hadoop还包括以下项目。

1)Ambari:基于Web,用于配置、管理和监控Hadoop集群。支持HDFS、MapReduce、Hive、HCatalog、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari还提供显示集群健康状况的仪表盘,如热点图等。Ambari以图形化的方式查看MapReduce、Pig和Hive应用程序的运行情况,因此可以通过对用户友好的方式诊断应用的性能问题。

2)Avro:数据序列化系统。

3)Cassandra:可扩展的、无单点故障的NoSQL多主数据库。

4)Chukwa:用于大型分布式系统的数据采集系统。

5)HBase:可扩展的分布式数据库,支持大表的结构化数据存储。

6)Hive:数据仓库基础架构,提供数据汇总和命令行即席查询功能。

7)Mahout:可扩展的机器学习和数据挖掘库。

8)Pig:用于并行计算的高级数据流语言和执行框架。

9)Spark:可高速处理Hadoop数据的通用计算引擎。Spark提供了一种简单而富有表达能力的编程模式,支持ETL、机器学习、数据流处理、图像计算等多种应用。

10)Tez:完整的数据流编程框架,基于YARN建立,提供强大而灵活的引擎,可执行任意有向无环图(DAG)数据处理任务,既支持批处理又支持交互式的用户场景。Tez已经被Hive、Pig等Hadoop生态圈的组件所采用,用来替代 MapReduce作为底层执行引擎。

11)ZooKeeper:用于分布式应用的高性能协调服务。

        除了以上这些官方认可的Hadoop生态圈组件之外,还有很多十分优秀的组件这里没有介绍,这些组件的应用也非常广泛,例如基于Hive查询优化的Presto、Impala、Kylin等。

        此外,在Hadoop生态圈的周边,还聚集了一群“伙伴”,它们虽然未曾深入融合Hadoop生态圈,但是和Hadoop有着千丝万缕的联系,并且在各自擅长的领域起到了不可替代的作用。图2是阿里云E-MapReduce平台整合的Hadoop生态体系中的组件,比Apache提供的组合更为强大。

下面简单介绍其中比较重要的成员。

1)Presto:开源分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB级。Presto可以处理多数据源,是一款基于内存计算的MPP架构查询引擎。

2)Kudu:与HBase类似的列存储分布式数据库,能够提供快速更新和删除数据的功能,是一款既支持随机读写,又支持OLAP分析的大数据存储引擎。

3)Impala:高效的基于MPP架构的快速查询引擎,基于Hive并使用内存进行计算,兼顾ETL功能,具有实时、批处理、多并发等优点。

4)Kylin:开源分布式分析型数据仓库,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力,支持超大规模数据的压秒级查询。

5)Flink:一款高吞吐量、低延迟的针对流数据和批数据的分布式实时处理引擎,是实时处理领域的新星。

6)Hudi:Uber开发并开源的数据湖解决方案,Hudi(Hadoop updates and incrementals)支持HDFS数据的修改和增量更新操作。

2.MapReduce的特点及运行架构

和HDFS一样,MapReduce也是採用Master/Slave的架构,其架构图例如以下所看到的。

MapReduce的特点

        1.易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点,使得 MapReduce 编程变得非常流行。


        2.良好的扩展性。当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。


        3.高容错性。 MapReduce 设计的初衷就是使程序能够部署在廉价的PC机器上, 这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行,不至于使这个任务运行失败,而且这个过程不需要人工干预,完全是由 Hadoop 内部完成的


        4.能对PB级以上海量数据进行离线处理。适合离线处理而不适合实时处理, 比如要求毫秒级别的返回一个结果, MapReduce 很难做到。

                     
原文链接:https://blog.csdn.net/Shockang/article/details/117767356

3.spark的特点和与MapReduce的区别

        1.快速:Spark在内存中的运行速度是Hadoop MapReduce运行速度的100多倍,Spark在磁盘中的运行速度是Hadoop MapReduce运行速度的10多倍。Spark的中心数据存放于内存中,有更高的迭代运算效率,而Hadoop MapReduce每次迭代的中间数据存放在HDFS中,涉及硬盘的读写,运算效率相对较低

        2.易用:Spark支持使用Scala、Python、Java、R等语言快速编写应用。此外。Spark提供超过80个高阶算子,使得编写并行应用程序变的简单。而Hadoop MapReduce只支持Scala。

        3.通用:Spark框架包含多个紧密集成的组件,包括Spark SQL(即席查询)、Spark Streaming(实时流处理)、Spark MLlib(机器学习库)、Spark GraphX(图计算),并且Spark支持在一个应用中同时使用这些组件。

        4.随处运行:用户可以使用Spark的独立集群模式运行Spark,随时随地,这里不多加赘述。

        5.代码简洁:Spark一般都使用Sacla或Python编写应用程序。MapReduce实现单词计数可能需要60多行代码,而Spark使用Salca语言实现只需要一行

4.Linux基础操作命令(搭建Hadoop平台需要)

文件与目录操作:

pwd 命令

格式:pwd

功能:显示当前所在目录(即工作目录)。

[root@centos ~]# pwd

实例:

ls 命令

格式:ls [选项] [文件|目录]

功能:显示指定目录中的文件或子目录信息。当不指定文件或目录时,显示 当前工作目录中的文件或子目录信息。

 命令常用选项如下:

 -a :全部的档案,连同隐藏档( 开头为 . 的档案) 一起列出来。

 -l :长格式显示,包含文件和目录的详细信息。

 -R :连同子目录内容一起列出来。

说明:命令“ls –l”设置了别名:ll,即输入 ll 命令,执行的是 ls –l 4 命令。

[root@centos /]# ls –a

实例:

[root@centos /]# ls –l

实例:

[root@centos opt]# ls –R

实例:

cd 命令

格式:cd

功能:用于切换当前用户所在的工作目录,其中路径可以是绝对路径也可以 是相对路径。

[root@centos ~]# cd /etc/

实例:

Mkdir 命令

格式: mkdir [选项] 目录

功能:用于创建目录。创建目录前需保证当前用户对当前路径有修改的权 限。参数 -p 用于创建多级文件夹。

[root@centos ~]# mkdir linux

[root@centos ~]# ls

anaconda-ks.cfg  linux

实例:

rm 命令

格式: rm [选项]

功能:用于删除文件或目录,常用选项-r -f,-r 表示删除目录,也可以用于 删除文件,-f 表示强制删除,不需要确认。删除文件前需保证当前用户对当 前路径有修改的权限。

[root@centos ~]# rm -rf linux

实例:

cp 命令

格式: cp [选项]

功能:复制文件或目录。

[root@centos ~]# cp /linux/text /opt/

实例:

复制一个目录需加选项 –r

mv 命令

格式:mv [选项]

功能:移动文件或对其改名。常用选项-i -f -b,-i 表示若存在同名文件,则向用户 询问是否覆盖;-f 直接覆盖已有文件,不进行任何提示;-b 当文件存在时,覆盖 前为其创建一个备份。

[root@centos ~]# mv /linux/text /

实例:

cat 命令

格式:cat [选项] [文件]

功能:查看文件内容。常用选项:-n 显示行号(空行也编号)。

[root@centos mnt]# cat -n text

实例:

tar 命令

格式:tar [选项] [档案名] [文件或目录]

功能:为文件和目录创建档案。利用 tar 命令,可以把一大堆的文件和目录 全部打包成一个文件,这对于备份文件或将几个文件组合成为一个文件以便 于网络传输是非常有用的。该命令还可以反过来,将档案文件中的文件和目 录释放出来。

常用选项:

-c 建立新的备份文件。

-C 切换工作目录,先进入指定目录再执行压缩/解压缩操作,可用于 仅压缩特定目录里的内容或解压缩到特定目录。

-x 从归档文件中提取文件。

-z 通过 gzip 指令压缩/解压缩文件,文件名为*.tar.gz。

-f 指定备份文件。

-v 显示命令执行过程。

[root@localhost ~]# ls

实例:

[root@localhost ~]# tar Docker.tar.gz 

实例:

[root@localhost ~]# tar  -zxvf  Docker.tar.gz -C /opt/

实例:

[root@localhost ~]# ls /opt/

实例:

用户操作:

useradd 命令和 passwd 命令

格式:useradd 用户名

功能:创建新用户,该命令只能由 root 用户使用。

格式:passwd 用户名

功能:设置或修改指定用户的口令。

[root@centos ~]# useradd xiaoming

[root@centos ~]# passwd 123456 #设置用户密码

[root@centos ~]# passwd xiaoming #更改指定用户密码,暗文显示,两次确认

实例:

chown 命令

格式:chown [选项]

功能:将文件或目录的拥有者改为指定的用户或组,用户可以是用户名或者 用户 ID,组可以是组名或者组 ID,文件是以空格分开的要改变权限的文件 列表支持通配符。选项“-R”表示对目前目录下的所有文件与子目录进行相同 的拥有者变更。

[root@centos ~]# chown xiaoming:xiaoming text

实例:

chmod 命令

格式:chmod [-R] 模式 文件或目录

功能:修改文件或目录的访问权限。选项“-R”表示递归设置指定目录下的所 有文件和目录的权限。 模式为文件或目录的权限表示,有三种表示方法。

  1. 数字表示 用 3 个数字表示文件或目录的权限,第 1 个数字表示所有者的权限,第 2个 数字表示与所有者同组用户的权限,第 3 个数字表示其他用户的权限。每类 用户都有 3 类权限:读、写、执行,对应的数字分别是 4、2、1。一个用户 的权限数字表示为三类权限的数字之和,如一个用户对 A 文件拥有读写权 限,则这个用户的权限数字为 6(4+2=6)。
[root@centos ~]# chmod 777 text

实例:

  1. 字符赋值 用字符 u 表示所有者,用字符 g 表示与所有者同组用户,用字符 o 表示其他 用户。用字符 r、w、x 分别表示读、写、执行权限。用等号“=”来给用户赋 权限。
[root@centos ~]# chmod u=rwx,g=rw,o=r text

实例:

su 命令

格式:su [-] 用户名

功能:将当前操作员的身份切换到指定用户。如果使用选项“-”,则用户切换 后使用新用户的环境变量,否则环境变量不变。

[root@centos ~]# su – xiaoming

实例:

exit退出

root用户切换普通用户不需要密码,普通用户切其他普通用户或者root用户需要密码

文本操作:

文本编辑器这里只介绍一个 vi 命令,vim 命令的操作与 vi 一样。

格式:vi [文件名]

功能:vi 是 Linux 的常用文本编辑器,vim 是从 vi 发展出来的一个文本编辑器, 其在代码补全、编译等方便的功能特别丰富,在程序员中被广泛使用。

vi/vim 有三个工作模式:

命令模式 用户刚刚启动 vi/vim,便进入了命令模式。此状态下敲击键盘动作会被 vi 识别为命令,而非输入字符。以下是常用的几个命令:

i 切换到输入模式,以输入字符。

x 删除当前光标所在处的字符。

: 切换到末行模式,用以在最底一行输入命令

[root@centos ~]# vi text

之后输入 i、x 或:会有相应的效果

输入模式

i

实例

 左下角显示INSERT表示进入写入模式

在输入模式下可以对文件执行写操作,编写完成后按 Esc 键即可返回命令模式。

末行模式

如果要保存、查找或者替换一些内容等,就需要进入末行模式。以下是常用的几个命 令:

Set nu:每一行显示行号

r 文件名:读取指定的文件。

w 文件名:将编辑内容保存到指定的文件内。

q:退出 vi

wq:保存文件并退出 vi

q!:强制退出 vi,不管是否保存文档内容。(x:强制保存推出)

系统操作:

clear 命令

格式:clear

功能:清除屏幕。实质上只是让终端显示页向后翻了一页,如果向上滚动屏 幕还可以看到之前的操作信息。

[root@centos ~]# clear

实例

hostname 命令

格式:hostname [选项]

功能:用于显示和设置系统的主机名称。在使用 hostname 命令设置主机名 后,系统并不会永久保存新的主机名,重新启动机器之后还是原来的主机 名。如果需要永久修改主机名,需要同时修改/etc/hostname 的相关内容。

常用选项:

-a 显示主机别名,

-i 显示主机的 ip 地址。

[root@centos ~]# hostname

实例:

[root@centos ~]# hostname –i

实例

hostnamectl 命令

格式 1:hostnamectl

功能:显示当前主机的名称和系统版本。

格式 2:hostnamectl set-hostname

功能:永久设置当前主机的名称。

[root@centos ~]# hostnamectl set-hostname xaioming

实例:

ip 命令

CentOS 7 已不使用 ifconfig 命令,其功能可通过 ip 命令代替。

格式 1:ip link dev

功能:对网络设备(网卡)进行操作,选项 add、delete、show、set 分别对 应增加、删除、查看和设置网络设备。

[root@xaioming ~]# ip link show

实例:

格式 2:ip address dev

功能:对网卡的网络协议地址(IPv4/IPv6)进行操作,选项 add、change、 del、show 分别对应增加、修改、删除、查看 IP 地址。

示例: #这里将 address 缩写为 addr

[root@xaioming ~]# ip link show

实例:

[root@xaioming ~]# ip a(一般都习惯这种)

实例

systemctl 命令

格式:systemctl service_name.service

功能:管理系统中的服务,“.service”表示管理的服务均包含了一个 以 .service 结尾的文件,存放于 /lib/systemd/目录中,可以省略。命令选项 有 start、restart、reload、stop、status,分别对应服务的启动、重启、重 新加载、停止和显示状态。另外选项 enable 表示开机时启动,disable 表示 撤销开机启动。

#启动网络服务

[root@xaioming ~]# systemctl start network

#关闭防火墙,注意 CentOS 7 的防火墙服务名称改为 firewalld

[root@localhost ~]# systemctl stop firewalld

#查看 ssh 服务的状态

[root@localhost ~]# systemctl status sshd

#设置 ssh 服务开机启动

[root@localhost ~]# systemctl enable sshd

reboot 命令

格式: reboot

功能:用于重新启动计算机,但是机器重启必须要 root 用户才有权限。

注意:本操作无需在平台系统执行

[root@master ~]# reboot

poweroff 命令

格式:poweroff

功能:用来关闭计算机操作系统并且切断系统电源。如果确认系统中已经没

有用户存在且所有数据都已保存,需要立即关闭系统,可以使用 poweroff

命令。

注意:本操作无需在平台系统执行

[root@master ~]# poweroff

export 命令

格式:export [选项] [变量名]

功能:用于将 Shell 变量输出为环境变量,或者将 Shell 函数输出为环境变

量。一个变量创建时,它不会自动地为在它之后创建的 Shell进程所知,而

命令export 可以向后面的 Shell 传递变量的值。当一个Shell 脚本调用并执行

时,它不会自动得到父脚本(调用者)里定义的变量的访问权,除非这些变

量已经被显式地设置为可用。export 命令可以用于传递一个或多个变量的值

到任何子脚本。

常用选项:

-f 代表[变量名称]中为函数名称。

-n 删除指定的变量。变量实际上并未删除,只是不会输出到后续指令的执行

环境中。

-p 列出所有的 Shell 赋予程序的环境变量。

示例:

[root@localhost ~]# export -p #列出当前所有的环境变量

实例:

[root@localhost ~]# export MYENV=8 #定义环境变量,并赋值 MYENV=8

实例:

echo命令

格式:echo [字符串]

功能:用于在终端设备上输出字符串或变量提取后的值。一般使用在变量前

加上$符号的方式提取出变量的值,例如:$PATH然后再用 echo 命令予以

出。

示例:

#输出一段字符串 LinuxCool.com

[root@localhost ~]# echo "LinuxCool.com"

实例:

#输出变量 PATH

[root@localhost ~]# echo #PATH

source 命令

格式:source [文件]

功能:用于重新执行刚修改的初始化文件,使之立即生效,而不必注销用

,重新登录。

示例: #读取和执行/etc/profile 文件

[root@localhost ~]# source /etc/profile

实例:

5.冷备 温备 热备

热备(在线备份):在数据库运行时直接备份,对数据库操作没有任何影响。

冷备(离线备份):在数据库停止时进行备份。

温备:在数据库运行时加全局读锁备份,保证了备份数据的一致性,但对性能有影响。

热备、冷备、温备_bars通过什么实现温备-CSDN博客

6.数据类型

Scala语言和Java类似,数据类型也是大同小异

Java八大数据类型:
(1)整数类型:byte、short、int、long
(2)小数类型:float、double
(3)字符类型:char
(4)布尔类型:boolean

具体可以看下面这篇文章:

八大基本数据类型(超详细)-CSDN博客

  • 22
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值