1. 概念回顾
1.1. Hive介绍
Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并使用 sql 语句转换为 MapReduce 任务进行运行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
1.2. Sqoop介绍
Sqoop 即 SQL to Hadoop
,是一款方便的在传统型数据库与 Hadoop 之间进行数据迁移的工具,充分利用 MapReduce 并行特点以批处理的方式加快数据传输
1.3. Hive vs SQL
Hive 使用HDFS,关系数据库则是服务器本地的文件系统。因为Hive 则是为海量数据做数据挖掘设计的,其实时性很差;而关系数据库都是为实时查询的业务进行设计的.
2. 环境说明
- Ubuntu 18.04
- Hadoop 2.10.0
- MySQL 5.7
- apache-hive-2.3.7
- mysql-connector-java_8.0.20-1ubuntu18.04_all
- sqoop-1.4.7
3. 将sql文件导入MySQL
3.1. 安装MySQL
- 在MySQL官网
ART
仓库中找到下载链接:
sudo wget https://dev.mysql.com/get/mysql-apt-config_0.8.15-1_all.deb
- 安装MySQL并配置
注意结尾为deb
,为Debian
系发行版,可使用Debian Package,即dpkg
来安装这个主面板,-i
应该是--install
的短命令版本:
sudo dpkg -i mysql-apt-config_0.8.15-1_all.deb
Enter
之后可以选择5.7版本,这里才开始下载服务器端mysql-server
- 开始更新安装
sudo apt-get update
sudo apt-get install mysql-server
密码:mysql
- 验证安装
- MySQL安装完成后默认是启动的,以下命令分别是
- 查看mysql状态|启动mysql|停止mysql|重启mysql
sudo service mysql status|start|stop|restart