今天是实训第二天,主要学习了Hadoop的一些简单的命令,HDFS的概述,集群的搭建,Apache Hive的概述,以及Hive的基础架构。
其中·集群的一键启动和关闭分别是
一键启动:
/onekey/my-start-all.sh
一键关闭:
/onekey/my-stop-all.sh
查看启动进程的命令:jps
HDFS的概述
HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.
HDFS的特点
1、分布式存储
2、可存储超大文件,但时效性稍差
3、能够自动检测故障和自动恢复的功能
4、为数据存储提供了很强的扩展能力
5、支持并行读写操作,一次写入,多次读取,只支持追加写入,不支持随机修改
6、可在普通廉价的机器上运行
HDFS的架构
HDFS采用Master/Slave架构,其中有两个重要角色,Namenode和Datedode,四个基本组件:HDFS Client、Namenode、DateNode和Secondary NameNode。
HDFS的Shell命令
hadoop fs -ls作用:显示文件列表
hadoop fs -ls -R作用:递归显示文件列表
hadoop fs -mkdi [-p] <paths>作用:以<paths>中的URI作为参数,创建目录。使用-p参数可以递归创建目录。
hadoop fs -mv <src> <dst>作用:将hdfs上的文件从原路径src移动到目标路径dst。
hadoop fs -rm 作用:删除文件
hadoop fs -rm -r /dir2作用:删除目录
hadoop fs -cp作用:将文件拷贝到目标路径中
hadoop fs -cat作用:将参数所指示的文件内容输出到控制台
hadoop fs -put /root/1.txt /dir1 作用:上传文件
hadoop fs –put /root/dir2 /作用:上传目录
hadoop fs -get作用:将HDFS文件拷贝到本地文件系统。
SQL计算是以分布式的形式,执行SQL语句,进行数据统计分析。
Apache Hive 是将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。
元数据是描述数据的数据。
Hive是将hadoop的文件转换为sql的表结构。
Hive的架构