黑马实训Hadoop—二

最新推荐文章于 2024-11-14 00:00:00 发布

橘子洲头277

最新推荐文章于 2024-11-14 00:00:00 发布

阅读量604

点赞数 20

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/2403_84570861/article/details/138132105

版权

本文介绍了Shell中的常用基本命令，如文件和目录操作，以及Hive和MySQL在Hadoop生态系统中的角色，重点讲解了Hive作为数据仓库工具如何通过HQL进行数据处理和分布式SQL计算。

摘要由CSDN通过智能技术生成

一、常用基本命令

（1）Shell常用的基本命令

ls：列出当前目录下的文件和子目录

-l：以长格式显示文件详细信息，包括文件权限、所有者、大小、修改时间等。
-a：显示所有文件，包括以.开头的隐藏文件。
-h：以人类可读的格式显示文件大小，如 KB、MB。
-r：以相反顺序显示文件列表。
-t：按照修改时间排序显示文件列表

cd：切换目录

cd :切换到当前用户的主目录
cd csdn:切换到指定目录（例如切换到名为 "csdn" 的子目录）
cd .. :切换到上一级目录
cd / :切换到根目录

pwd：显示当前工作目录的路径

mkdir：创建新目录

mkdir new_directory :在当前目录下创建一个名为 "new_directory" 的新目录
mkdir -p path/to/new_directory:创建多级目录（如果上级目录不存在，也会一并创建）

rmdir：删除空目录

touch：创建新文件
rm：删除文件或目录
cp：复制文件或目录
mv：移动文件或目录
cat：显示文件内容

二、Hive、Mysql、Hadoop

hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低，可以通过类 SQL 语句快速实现简单的 MapReduce 统计，不必开发专门的 MapReduce 应用，十分适合数据仓库的统计分析。

Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作