一.Hadoop集群使用
(一)Hadoop启动和关闭
- 启动虚拟机
- 连接虚拟机
- 集群一键启动和关闭
一键启动大数据环境:/onekey/my-start-all.sh
一键关闭大数据环境:/onekey/my-stop-all.sh
(二)Hadoop页面访问-集群模式
1.查看启动进程-jps
2.查看HDFS页面
3.查看YARN页面
4.查看已经finshed的mapreduce运行日志
二.HDFS的Shell命令
(一)Shell命令介绍
安装好hadoop环境之后,可以执行hdfs相关的shell命令对hdfs文件系统进行操作,比如文件的创建,删除,修改文件权限等。
-ls命令
作用:类似于Linux的ls命令,显示文件列表
ll命令
作用:查看文件详情,与ls -l一样
三.分布式SQL计算-Hive
1.什么是分布式SQL计算
以分布式的形式,执行SQL语句,进行数据统计分析
2.Apache Hive是做什么的?
将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。
3.Driver驱动程序
Driver:包括语法解析器,计划编译器,优化器,执行器
作用:完成HQL查询语句从词法分析,语法分析,编译,优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
这部分内容不是具体的服务进程,而是封装在Hive所依赖的jar文件即Java代码中。
4.Metastore元数据存储
元数据包含:用Hive创建的database,table,表的字段等元信息
元数据存储:存在关系型数据库中,如:hive内置的Derby数据库或者第三方MySQL数据库等。
Metastore:即元数据存储服务,作用是:客户端连接metastore服务,metastore再去连接MySQL等数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL等数据库的用户和密码,只需要连接metastore服务即可。