黑马实训Hadoop—二

本文介绍了Shell中的常用基本命令,如文件和目录操作,以及Hive和MySQL在Hadoop生态系统中的角色,重点讲解了Hive作为数据仓库工具如何通过HQL进行数据处理和分布式SQL计算。
摘要由CSDN通过智能技术生成

一、常用基本命令

(1)Shell常用的基本命令

  • ls:列出当前目录下的文件和子目录

  • -l:以长格式显示文件详细信息,包括文件权限、所有者、大小、修改时间等。
  • -a:显示所有文件,包括以.开头的隐藏文件。
  • -h:以人类可读的格式显示文件大小,如 KB、MB。
  • -r:以相反顺序显示文件列表。
  • -t:按照修改时间排序显示文件列表

  • cd:切换目录

  • cd :切换到当前用户的主目录
  • cd csdn:切换到指定目录(例如切换到名为 "csdn" 的子目录)
  • cd .. :切换到上一级目录
  • cd / :切换到根目录

  • pwd:显示当前工作目录的路径

  • mkdir:创建新目录

  • mkdir new_directory :在当前目录下创建一个名为 "new_directory" 的新目录
  • mkdir -p path/to/new_directory:创建多级目录(如果上级目录不存在,也会一并创建)

  • rmdir:删除空目录

  • touch:创建新文件
  • rm:删除文件或目录
  • cp:复制文件或目录
  • mv:移动文件或目录
  • cat:显示文件内容

二、Hive、Mysql、Hadoop

hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作

分布式SQL计算:以分布式的形式,执行SQl语句,进行数据统计分析。

Apache Hive:将SQL语句翻译成MapReduce程序,从而提供用户分布式SQl计算的能力。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值