集群使用与分布式SQL计算

本文介绍了如何在Hadoop集群中进行一键启动和关闭,详细讲解了HDFS的Shell命令使用以及Hive的分布式SQL计算,包括Driver和Metastore元数据存储的相关概念。
摘要由CSDN通过智能技术生成

一.Hadoop集群使用

(一)Hadoop启动和关闭

  1. 启动虚拟机
  2. 连接虚拟机
  3. 集群一键启动和关闭

一键启动大数据环境:/onekey/my-start-all.sh

一键关闭大数据环境:/onekey/my-stop-all.sh

(二)Hadoop页面访问-集群模式

1.查看启动进程-jps

2.查看HDFS页面

3.查看YARN页面

4.查看已经finshed的mapreduce运行日志

二.HDFS的Shell命令

(一)Shell命令介绍

安装好hadoop环境之后,可以执行hdfs相关的shell命令对hdfs文件系统进行操作,比如文件的创建,删除,修改文件权限等。

-ls命令

作用:类似于Linux的ls命令,显示文件列表

ll命令

作用:查看文件详情,与ls -l一样

三.分布式SQL计算-Hive

1.什么是分布式SQL计算

以分布式的形式,执行SQL语句,进行数据统计分析

2.Apache Hive是做什么的?

将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。

3.Driver驱动程序

Driver:包括语法解析器,计划编译器,优化器,执行器

作用:完成HQL查询语句从词法分析,语法分析,编译,优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。

这部分内容不是具体的服务进程,而是封装在Hive所依赖的jar文件即Java代码中。

4.Metastore元数据存储

元数据包含:用Hive创建的database,table,表的字段等元信息

元数据存储:存在关系型数据库中,如:hive内置的Derby数据库或者第三方MySQL数据库等。

Metastore:即元数据存储服务,作用是:客户端连接metastore服务,metastore再去连接MySQL等数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL等数据库的用户和密码,只需要连接metastore服务即可。

  • 15
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值