Hadoop与Spark以及那些坑

最新推荐文章于 2024-03-07 17:39:56 发布

VIP文章钱塘小甲子

最新推荐文章于 2024-03-07 17:39:56 发布

阅读量3.3k

点赞数

分类专栏： Hadoop与Spark大数据平台

本文链接：https://blog.csdn.net/qtlyx/article/details/53787765

版权

这两天在搭建Hadoop与Spark的平台，要求是能够运行Spark，并且用python编程。笔者也不打算写一个很详细的细节教程，简单做一个笔记blog。

1.选择

笔者一开始是在虚拟机上搭建的，创建了三个ubuntu虚拟机，然后开始布置分布式系统，但是，后来发现，资源完全不够用。笔者台式机16G内存，2T硬盘，i7第四代处理器，然而，还是被hadoop拖死。

所以，笔者建议，用物理机器，而且只用一台。作为学习，我们用伪分布式完全就可以了。

2.安装Hadoop

这个部分其实不是那么难，但是前提是你得有linux基础。基本就是那么几个步骤：

1 )查看自己的ip，指令ifconfig

2)修改/etc/hostname中设备的名字，比如master什么的

3)为以后的ssh做准备，最好也改一下/etc/hosts中的名称

4)把hadoop的文件包解压，推荐在Home下

5)安装JDK，其实就是解压。在/etc/profile中加入JDK的环境变量：

export JAVA_HOME=/opt/jdk1.6.0_45
export PATH=$PATH:$JAVA_HOME/bin

6)配置Hadoop，其实就是修改配置文件，配置文件在/etc下的hadoop里面。

1、hadoop-env.sh
export JAVA_HOME=/opt/modules/jdk1.6.0_45
2、yarn-env.sh
export JAVA_HOME=/opt/modules/jdk1.6.0_45
3、mapred-env.sh
export JAVA_HOME=/opt/modules/jdk1.6.0_45
4、core-site.xml
<property>		 
	<name>fs.default.name</name>
	<value>hdfs://hadoop-yarn.dragon.org:8020</value>
</property>

<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/modules/hadoop-2.2.0/data/tmp</value>
</property>
5、hdfs-site.xml
	<

最低0.47元/天解锁文章

钱塘小甲子

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hadoop与Spark以及那些坑

这两天在搭建Hadoop与Spark的平台，要求是能够运行Spark，并且用python编程。笔者也不打算写一个很详细的细节教程，简单做一个笔记blog。1.选择笔者一开始是在虚拟机上搭建的，创建了三个ubuntu虚拟机，然后开始布置分布式系统，但是，后来发现，资源完全不够用。笔者台式机16G内存，2T硬盘，i7第四代处理器，然而，还是被hadoop拖死。
复制链接

扫一扫