大数据集群方案-单机模式
大数据集群方案-集群模式
Hadoop集群使用
- 一键启动大数据环境
/onekey/my-start-all.sh
- 一键关闭大数据环境
/onekey/my-stop-all.sh
- 查看启动进程 jps
[root@node1 bin]# jps
3376 RunJar
3093 NodeManager
3334 JobHistoryServer
2983 ResourceManager
2635 DataNode
2813 SecondaryNameNode
7694 Jps
2495 NameNode
3375 RunJar
- 查看HDFS页面
在Hadoop集群启动并运行的时候,可以通过:http://192.168.52.161:50070http://192.168.52.161:50070 来查看NameNode页面
- 查看yarn页面
在Hadoop集群启动并运行的时候,可以通过:http://192.168.52.161:8088http://192.168.52.161:8088 来查看yarnu页面
- 查看已经finished的mapreduce运行日志
http://192.168.52.161:19888http://192.168.52.161:19888
HDFS的特点
- HDFS文件系统可存储超大文件,时效性稍差。
- HDFS具有硬件故障检测和自动快速恢复功能。
- HDFS为数据存储提供很强的扩展能力。
- HDFS存储一般为一次写入,多次读取,只支持追加写入,不支持随机修改。
- HDFS可在普通廉价的机器上运行。
HDFS的四个基本组件:HDFS Client、NameNode、DataNode和Secondary NameNode
HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,这个数据块 被称为block,除了最后一个,所有的数据块都是同样大小的。
HDFS的Shell命令
- ls命令
显示文件命令
hadoop fs -ls / #显示文件列表
hadoop fs –ls -R / #递归显示文件列表
- mkdir命令
创建目录,使用-p参数可以递归创建目录
hadoop fs -mkdir /dir1
hadoop fs -mkdir -p /aaa/bbb/ccc
- mv命令
将hdfs上的文件从原路径src移动到目标路径dst,该命令不能夸文件系统
hadoop fs -mv /dir1/1.txt /dir2
- rm命令
删除参数指定的文件和目录,参数可以有多个,删除目录需要加-r参数 如果指定-skipTrash选项,那么在回收站可用的情况下,该选项将跳过回收站而直接删除文件; 否则,在回收站可用时,在HDFS Shell 中执行此命令,会将文件暂时放到回收站中。
hadoop fs -rm /initial-setup-ks.cfg #删除文件
hadoop fs -rm -r /dir2 #删除目录
- cp命令
将文件拷贝到目标路径中
hadoop fs -cp /dir1/1.txt /dir2
- cat命令
将参数所指的文件内容输出到控制台
hadoop fs -cat /dir1/1.txt
- put命令
将单个的源文件或者多个源文件srcs从本地文件系统上传到目标文件系统中。
hadoop fs -put /root/1.txt /dir1 #上传文件
hadoop fs –put /root/dir2 / #上传目录
- get命令
将HDFS文件拷贝到本地文件系统
hadoop fs -get /initial-setup-ks.cfg /opt
分布式SQL计算:以分布式的形式、执行SQL语句,进行数据统计分析
Apache Hive是:将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力
Driver驱动程序
Driver:包括语法解析器、计划编译器、优化器、执行器
Metastore元数据存储
元数据包括:用Hive创建database、table、表的字段等元信息
Metastore:即元数据存储服务,作用是:客户端连接metastore服务,metastore再去连接MySQL等数据库来存取元数据,有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL等数据库的用户名和密码,只需要连接metastore服务即可。