大数据实训第二天心得体会

今天是实训第二天,主要学习了Hadoop的一些简单的命令,HDFS的概述,集群的搭建,Apache Hive的概述,以及Hive的基础架构。

其中·集群的一键启动和关闭分别是

一键启动:

/onekey/my-start-all.sh

一键关闭:

/onekey/my-stop-all.sh

查看启动进程的命令:jps

HDFS的概述

HDFS 使用多台计算机存储文件, 并且提供统一的访问接口, 像是访问一个普通文件系统一样使用分布式文件系统.

HDFS的特点

1、分布式存储

2、可存储超大文件,但时效性稍差

3、能够自动检测故障和自动恢复的功能

4、为数据存储提供了很强的扩展能力

5、支持并行读写操作,一次写入,多次读取,只支持追加写入,不支持随机修改

6、可在普通廉价的机器上运行

HDFS的架构

HDFS采用Master/Slave架构,其中有两个重要角色,Namenode和Datedode,四个基本组件:HDFS Client、Namenode、DateNode和Secondary NameNode。

HDFS的Shell命令

hadoop fs -ls作用:显示文件列表

hadoop fs -ls -R作用:递归显示文件列表

hadoop fs -mkdi [-p] <paths>作用:以<paths>中的URI作为参数,创建目录。使用-p参数可以递归创建目录。

hadoop fs -mv <src> <dst>作用:将hdfs上的文件从原路径src移动到目标路径dst。

hadoop fs -rm 作用:删除文件

hadoop fs -rm -r /dir2作用:删除目录

hadoop fs -cp作用:将文件拷贝到目标路径中

hadoop fs -cat作用:将参数所指示的文件内容输出到控制台

hadoop fs -put /root/1.txt /dir1 作用:上传文件

hadoop fs –put /root/dir2 /作用:上传目录

hadoop fs -get作用:将HDFS文件拷贝到本地文件系统。

SQL计算是以分布式的形式,执行SQL语句,进行数据统计分析。

Apache Hive 是将SQL语句翻译成MapReduce程序,从而提供用户分布式SQL计算的能力。

元数据是描述数据的数据。

Hive是将hadoop的文件转换为sql的表结构。

Hive的架构

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值