认知实习Day2-CSDN博客

本文链接：https://blog.csdn.net/2301_77954571/article/details/138114648

大数据集群方案-单机模式

大数据集群方案-集群模式

Hadoop集群使用

一键启动大数据环境

/onekey/my-start-all.sh

一键关闭大数据环境

/onekey/my-stop-all.sh

查看启动进程 jps

[root@node1 bin]# jps
3376 RunJar
3093 NodeManager
3334 JobHistoryServer
2983 ResourceManager
2635 DataNode
2813 SecondaryNameNode
7694 Jps
2495 NameNode
3375 RunJar

查看HDFS页面

在Hadoop集群启动并运行的时候，可以通过：http://192.168.52.161:50070http://192.168.52.161:50070 来查看NameNode页面

查看yarn页面

在Hadoop集群启动并运行的时候，可以通过：http://192.168.52.161:8088http://192.168.52.161:8088 来查看yarnu页面

查看已经finished的mapreduce运行日志

http://192.168.52.161:19888http://192.168.52.161:19888

HDFS的特点

HDFS文件系统可存储超大文件，时效性稍差。
HDFS具有硬件故障检测和自动快速恢复功能。
HDFS为数据存储提供很强的扩展能力。
HDFS存储一般为一次写入，多次读取，只支持追加写入，不支持随机修改。
HDFS可在普通廉价的机器上运行。

HDFS的四个基本组件:HDFS Client、NameNode、DataNode和Secondary NameNode

HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块，这个数据块被称为block，除了最后一个，所有的数据块都是同样大小的。

HDFS的Shell命令

ls命令

显示文件命令

hadoop fs -ls / #显示文件列表

hadoop fs –ls -R / #递归显示文件列表

mkdir命令

hadoop fs -mkdir /dir1

hadoop fs -mkdir -p /aaa/bbb/ccc

mv命令

将hdfs上的文件从原路径src移动到目标路径dst,该命令不能夸文件系统

hadoop fs -mv /dir1/1.txt /dir2

rm命令

删除参数指定的文件和目录，参数可以有多个，删除目录需要加-r参数如果指定-skipTrash选项，那么在回收站可用的情况下，该选项将跳过回收站而直接删除文件；否则，在回收站可用时，在HDFS Shell 中执行此命令，会将文件暂时放到回收站中。

hadoop fs -rm /initial-setup-ks.cfg #删除文件

hadoop fs -rm -r /dir2 #删除目录

cp命令

将文件拷贝到目标路径中

hadoop fs -cp /dir1/1.txt /dir2

cat命令

将参数所指的文件内容输出到控制台

hadoop fs -cat /dir1/1.txt

put命令

将单个的源文件或者多个源文件srcs从本地文件系统上传到目标文件系统中。

hadoop fs -put /root/1.txt /dir1 #上传文件

hadoop fs –put /root/dir2 / #上传目录

get命令

将HDFS文件拷贝到本地文件系统

hadoop fs -get /initial-setup-ks.cfg /opt

分布式SQL计算：以分布式的形式、执行SQL语句，进行数据统计分析

Apache Hive是：将SQL语句翻译成MapReduce程序，从而提供用户分布式SQL计算的能力

Driver驱动程序

Driver：包括语法解析器、计划编译器、优化器、执行器

Metastore元数据存储

元数据包括：用Hive创建database、table、表的字段等元信息

Metastore:即元数据存储服务，作用是：客户端连接metastore服务，metastore再去连接MySQL等数据库来存取元数据，有了metastore服务，就可以有多个客户端同时连接，而且这些客户端不需要知道MySQL等数据库的用户名和密码，只需要连接metastore服务即可。