一、常用基本命令
(1)Shell常用的基本命令
- ls:列出当前目录下的文件和子目录
-l
:以长格式显示文件详细信息,包括文件权限、所有者、大小、修改时间等。-a
:显示所有文件,包括以.
开头的隐藏文件。-h
:以人类可读的格式显示文件大小,如 KB、MB。-r
:以相反顺序显示文件列表。-t
:按照修改时间排序显示文件列表
- cd:切换目录
- cd :切换到当前用户的主目录
- cd csdn:切换到指定目录(例如切换到名为 "csdn" 的子目录)
- cd .. :切换到上一级目录
- cd / :切换到根目录
- pwd:显示当前工作目录的路径
- mkdir:创建新目录
- mkdir new_directory :在当前目录下创建一个名为 "new_directory" 的新目录
- mkdir -p path/to/new_directory:创建多级目录(如果上级目录不存在,也会一并创建)
- rmdir:删除空目录
- touch:创建新文件
- rm:删除文件或目录
- cp:复制文件或目录
- mv:移动文件或目录
- cat:显示文件内容
二、Hive、Mysql、Hadoop
hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作
分布式SQL计算:以分布式的形式,执行SQl语句,进行数据统计分析。
Apache Hive:将SQL语句翻译成MapReduce程序,从而提供用户分布式SQl计算的能力。