目录
一、Hadoop集群学习
• 一键启动大数据环境 /onekey/my-start-all.sh
• 一键关闭大数据环境 /onekey/my-stop-all.sh
⚫ HDFS被设计成能够在一个大集群中跨机器可靠地存储超大文件。它将每个文件存储成一系列的数据块,这个数据块 被称为block,除了最后一个,所有的数据块都是同样大小的。
⚫ 为了容错,文件的所有block都会有副本。每个文件的数据块大小和副本系数都是可配置的。
⚫ hadoop 当中, 文件的 block 块大小默认是 128M(134217728字节)。
二、HDFS的Shell命令
Hadoop提供了文件系统的shell命令使用格式如下:hadoop fs 或者 hdfs dfs
ls命令
-ls
格式: hadoop fs -ls URI
作用:类似于Linux的ls命令,显示文件列表
hadoop fs -ls / #显示文件列表
hadoop fs –ls -R / #递归显示文件列表
mkdir命令
格式 :hadoop fs –mkdir [-p] <paths>
作用: 以中的URI作为参数,创建目录。使用-p参数可以递归创建目录
mv命令
格式: hadoop fs -mv
作用: 将hdfs上的文件从原路径src移动到目标路径dst,该命令不能夸文件系统
rm命令
应用:
hadoop fs -rm /initial-setup-ks.cfg #删除文件
hadoop fs-rm -r /dir2 #删除目录
作用: 删除参数指定的文件和目录,参数可以有多个,删除目录需要加-r参数
cp命令
格式: hadoop fs -cp
作用: 将文件拷贝到目标路径中
cat命令
格式: hadoop fs -cat
作用: 将参数所指示的文件内容输出到控制台
put命令
应用:
hadoop fs -put /root/1.txt /dir1 #上传文件
hadoop fs –put /root/dir2 / #上传目录
作用 : 将单个的源文件或者多个源文件srcs从本地文件系统上传到目标文件系统中。
get命令
格式: hadoop fs -get
作用: 将HDFS文件拷贝到本地文件系统。
三、Apache Hive
分布式SQL计算
Apache Hive将SQL语句翻译成MapReduce程序运行
Apache Hive将文件转换为表结构
元数据(Metastore):记录存储数据的数据。
练习
1、创建虚拟机并配置集群
2.Apache Hive和MySQL连接客户端
总结
通过对Hadoop集群和Apache Hive的学习,知道了Apache Hive、MySQL和Hadoop之间的联系,也学会了如何使用Shell命令来对数据进行操作,明确了大数据行业知识的广泛性,在以后的学习中还需要更加努力的学习,提升自己的能力。