虚拟机安装spark2.2+hadoop2.7.3

安装VisualBox和操作系统

  1. 官网下载VisualBox安装文件.并安装。
  2. ubuntu官网下载最新版本得ubuntu安装文件。
  3. visualBox新建64位ubuntu,并启动虚拟机。
  4. 跟着提示选择ubuntu安装文件,就可以很顺利的装好系统了。

一般个人电脑内存在8g以下,所以如果装3台虚拟机,每台最多分1.5g内存了,多了机器也跑不动,所以按照网上的很多文档,装好出现了nodemanager启动失败的问题,这边文章主要也就是想记录下这个问题的解决过程。

ubuntu基础配置

  1. ubuntu环境搭建
  2. 由于本机网络环境可能经常变,在默认网卡设置静态地址会导致无法上网,因此单机虚拟机安装的话可以使用第二网卡,比如vitrual box中可以现在全局网络中新建一个仅主机(Host-only)网络,然后第二网卡设置成这种网络,然后再改成静态地址。 然后hadoop使用静态地址,这样就不怕网络环境变化了。
# 安装完操作系统后添加新网卡,如果没有启动,就这样
sudo ifconfig {eth1}(网卡名) up
sudo dhclient

# 改为静态地址
sudo vim /etc/network/interfaces

auto enp0s8
iface enp0s8 inet static
address 192.168.56.101
netmask 255.255.255.0
gateway 192.168.56.100

#然后重新启动网络服务
sudo /etc/init.d/networking restart
  1. 修改3台虚拟机的hosts配置,先修改master机器
vim /etc/hosts

127.0.0.1   localhost
192.168.56.101  master-hadoop
192.168.56.102    slave1-hadoop
192.168.56.103    slave2-hadoop

# 然后赋值到另外两台机器
scp /etc/hosts root@slave1-hadoop:/etc/hosts
scp /etc/hosts root@slave2-hadoop:/etc/hosts

hadoop安装

  1. hadoop安装配置全流程
  2. 上面的配置少了yarn-site.xml的配置,会造成nodemanager启动失败,原因还是按默认配置虚拟机内存不够,按照这个配置yarn集群配置
  3. 检查是否正常运行
    (2)浏览器打开http://192.168.0.182:8088/
    (3)浏览器打开http://192.168.0.182:50070/
  4. 测试运行mapreduce
./hadoop jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 4 1000

spark安装

  1. 直接下载官网预编译版本官网预编译版本
  2. 修改配置文件spark-env.sh
sudo echo "export SPARK_HOME=/usr/local/spark" >> /etc/profile
cd $SPARK_HOME/conf
cp spark-env.sh.template spark-env.sh

echo "export JAVA_HOME=/usr/local/lib/java/jdk" >> spark-env.sh
echo "export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop" >> spark-env.sh
  1. 修改spark-defaults.conf中的内存设置
cd $SPARK_HOME/conf
cp spark-defaults.conf.template spark-defaults.conf
echo "spark.driver.memory 512m" >> spark-defaults.conf
echo "spark.executor.memory 512m" >> spark-defaults.conf
  1. 启动saprk
cd $SPARK_HOME/sbin
./start-all.sh
  1. 测试运行spark superPI, spark master默认端口是7077
spark-submit --driver-memory 512m --executor-memory 512m --executor-cores 1 --class org.apache.spark.examples.SparkPi --master spark://master-hadoop:7077 /usr/local/spark/examples/jars/spark-examples*.jar 10

可能遇到的坑

  1. nodemanager没有启动起来,造成运行hadoop官方例子和spark再yarn运行时都再job accept就卡住不动了。是因为虚拟机内存不够,默认yarn的nodemanager设置的8g内存才能启动,而且不能小雨1g,否则也无法启动。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Spark是一个快速的、通用的分布式计算系统,可以处理大规模数据集并提供高效的数据处理能力。 Hive是一个基于Hadoop的数据仓库系统,可以将结构化数据映射到Hadoop的分布式文件系统中,并提供SQL查询和数据分析的能力。 HBase是一个基于Hadoop的分布式NoSQL数据库,可以处理大规模的非结构化数据,并提供高可用性和高性能的数据存储和查询能力。 Hadoop是一个开源的分布式计算框架,可以处理大规模数据集并提供高可用性和高性能的数据处理能力。它包括HDFS分布式文件系统和MapReduce计算框架。 ### 回答2: Spark、Hive、HBase和Hadoop都是大数据生态系统中的关键技术。Hadoop是一个分布式存储和处理框架,它是大数据技术的基础。它可以使用HDFS来存储数据,并使用MapReduce进行数据处理。但是,Hadoop的MapReduce只能用于离线批处理,不能实时处理。 Spark是一个基于内存的大数据处理框架,它提供了比MapReduce更快的处理速度和更多的功能,包括实时处理和迭代算法。Spark可以对数据进行流处理,批处理和交互式查询。它还可以与Hive和HBase进行集成,以提供更广泛的大数据生态系统。 Hive是一个基于Hadoop的数据仓库,它可以将结构化数据映射到Hadoop上,并提供类SQL的接口进行查询和分析。Hive可以支持大规模数据分析,使大数据变得更加易于管理和处理。 HBase是基于Hadoop的分布式NoSQL数据库,它是一个高度可伸缩的存储系统,可以存储非结构化和半结构化数据。HBase的数据存储在Hadoop上,并支持快速读写。 综上所述,Hadoop是大数据技术的基础,而Spark和Hive可以进一步拓展其功能和应用场景。HBase则提供了高度可伸缩的存储系统,可以存储更多的非结构化和半结构化数据。整个生态系统的目的是为了使大量数据变得更易于处理和分析,从而提供更有价值的数据洞见。 ### 回答3: Spark,Hive,HBase和Hadoop是数据处理和分析领域的重要工具。它们都有自己的优缺点,可以用于不同的场景和需求。 Hadoop是分布式计算平台,可以处理大规模的数据和任务。它主要通过HDFS(分布式文件系统)和MapReduce编程模型来实现数据的存储和计算。Hadoop可以并行处理大量数据,它的数据安全性和可靠性也很好。但是,Hadoop的处理速度相对较慢,因为它需要在任务开始之前将数据移动到磁盘中。 Hive是一个基于Hadoop的数据仓库解决方案,可以以SQL的方式查询和分析数据。它允许用户利用SQL查询大规模数据集,并且可以将查询转化为MapReduce任务执行。Hive的优势在于可以通过类SQL语言查询数据,让不熟悉MapReduce编程模型的开发者快速地进行数据分析。但是,它仍然需要MapReduce,处理速度相对较慢,适用于离线数据分析。 HBase是一个开源的非关系型数据库,基于Hadoop的HDFS构建。HBase特别适用于存储千万到百亿级别的大数据,同时保持高可靠性和高可用性。它具有高性能、分布式和列存储的特点,并且支持随机读写,适用于需要快速并发高效处理各种类型的数据。 Spark是一种快速、通用、可扩展的数据处理引擎,它能够进行内存计算、流处理以及批处理。Spark可以比Hadoop更快地处理大数据,并且在内存中进行处理,加快了处理效率。它支持多种编程语言,并允许用户在大数据分析中使用机器学习和图形处理算法。 总的来说,这些工具各有所长,都是数据分析和处理领域的重要工具,可以根据不同的需求进行选择。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值