目录
小汤最近又需要在Hadoop生态系统上进行实验,于是又要重新安装虚拟机,配置Hadoop生态系统,但是以前配置过hadoop生态系统,于是找到的原先的镜像文件,直接打开使用,没想到竟然一点问题都没有~
一、virtualbox的下载
virtualbox下载地址:Downloads – Oracle VM VirtualBox
直接进入下载页面下载windows版本的virtualbox并一路安装即可
安装ing
二、新建Ubuntu系统
1、确定好镜像系统的位置
2、新建虚拟系统
(1)点击新建
(2)填写虚拟电脑的名称以及储存的位置
这里主要在虚拟硬盘这里选择使用已有的虚拟硬盘文件
点击注册,去到镜像系统的位置,点击选择即可
这时候你的virtualbox就出现了一个虚拟系统,然后点击启动即可
三、Hadoop系统的启动
Hadoop中主要有hdfs这个分布式文件管理系统,用于文件存储,是是生态系统中的底层
1、启动Hadoop
打开一个终端,进行ssh连接
ssh localhost
进入管理员模式
sudo su
进入hadoop安装目录,启动hadoop
cd /usr/local/hadoop
./sbin/start-dfs.sh
输入jps可以看到datanode和namenode均成功启动
2、 启动hbase
HBase是一个分布式的、面向列的开源数据库,用于存储分布式数据
同样进入hbase安装命令,输入命令启动
cd /usr/local/hbase
bin/start-hbase.sh
可以看到hbase已经成功启动,可以输入
bin/hbase shell
进入hbase的命令行,进行hbase代码书写
3、启动spark
可参考我的另一篇博客Linux系统下Spark的下载与安装(pyspark运行示例)-CSDN博客
4、启动hive
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
cd /usr/local/hive
./bin/hive
可以进入hive的命令行,查看数据库
5、hadoop和hbase的停止
一定要先停止hbase等其他基于hadoop的组件,再停在hadoop.
这里我没有进入相关目录就能停止,是因为我在环境变量中已经配置了hadoop和hbase的bin目录地址,因此可以直接停止。
stop-hbase.sh
stop-dfs.sh
可以看到,输入jps hadoop和hbase都停止了
6、启动mysql
mysql -u root -p
四、总结
基本上这个镜像文件中,Hadoop生态系统的大部分东西都安装好了(hadoop,hbase,hive,spark,sqoop),免去了很多配置的烦恼,同时安装好了eclipse和jupyter可以直接进行项目的书写和运行
后续考虑要不要将镜像文件分享出来~
都看到这里了,给个小♥♥呗~