安装VisualBox和操作系统
- 官网下载VisualBox安装文件.并安装。
- ubuntu官网下载最新版本得ubuntu安装文件。
- visualBox新建64位ubuntu,并启动虚拟机。
- 跟着提示选择ubuntu安装文件,就可以很顺利的装好系统了。
一般个人电脑内存在8g以下,所以如果装3台虚拟机,每台最多分1.5g内存了,多了机器也跑不动,所以按照网上的很多文档,装好出现了nodemanager启动失败的问题,这边文章主要也就是想记录下这个问题的解决过程。
ubuntu基础配置
- ubuntu环境搭建
- 由于本机网络环境可能经常变,在默认网卡设置静态地址会导致无法上网,因此单机虚拟机安装的话可以使用第二网卡,比如vitrual box中可以现在全局网络中新建一个仅主机(Host-only)网络,然后第二网卡设置成这种网络,然后再改成静态地址。 然后hadoop使用静态地址,这样就不怕网络环境变化了。
# 安装完操作系统后添加新网卡,如果没有启动,就这样
sudo ifconfig {eth1}(网卡名) up
sudo dhclient
# 改为静态地址
sudo vim /etc/network/interfaces
auto enp0s8
iface enp0s8 inet static
address 192.168.56.101
netmask 255.255.255.0
gateway 192.168.56.100
#然后重新启动网络服务
sudo /etc/init.d/networking restart
- 修改3台虚拟机的hosts配置,先修改master机器
vim /etc/hosts
127.0.0.1 localhost
192.168.56.101 master-hadoop
192.168.56.102 slave1-hadoop
192.168.56.103 slave2-hadoop
# 然后赋值到另外两台机器
scp /etc/hosts root@slave1-hadoop:/etc/hosts
scp /etc/hosts root@slave2-hadoop:/etc/hosts
hadoop安装
- hadoop安装配置全流程
- 上面的配置少了yarn-site.xml的配置,会造成nodemanager启动失败,原因还是按默认配置虚拟机内存不够,按照这个配置yarn集群配置
- 检查是否正常运行
(2)浏览器打开http://192.168.0.182:8088/
(3)浏览器打开http://192.168.0.182:50070/ - 测试运行mapreduce
./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 4 1000
spark安装
- 直接下载官网预编译版本官网预编译版本
- 修改配置文件spark-env.sh
sudo echo "export SPARK_HOME=/usr/local/spark" >> /etc/profile
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh
echo "export JAVA_HOME=/usr/local/lib/java/jdk" >> spark-env.sh
echo "export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop" >> spark-env.sh
- 修改spark-defaults.conf中的内存设置
cd $SPARK_HOME/conf
cp spark-defaults.conf.template spark-defaults.conf
echo "spark.driver.memory 512m" >> spark-defaults.conf
echo "spark.executor.memory 512m" >> spark-defaults.conf
- 启动saprk
cd $SPARK_HOME/sbin
./start-all.sh
- 测试运行spark superPI, spark master默认端口是7077
spark-submit --driver-memory 512m --executor-memory 512m --executor-cores 1 --class org.apache.spark.examples.SparkPi --master spark://master-hadoop:7077 /usr/local/spark/examples/jars/spark-examples*.jar 10
可能遇到的坑
- nodemanager没有启动起来,造成运行hadoop官方例子和spark再yarn运行时都再job accept就卡住不动了。是因为虚拟机内存不够,默认yarn的nodemanager设置的8g内存才能启动,而且不能小雨1g,否则也无法启动。