hadoop2.6.0伪分布式+spark1.6.0配置记录

原创 2016年06月01日 22:09:46

1、hdfs-site.xml文件:

<configuration>
    <property>
        <name>dfs.name.dir</name>
        <value>/spark/hadoop-2.6.0/tmp/dfs/name</value> #只需要手动创建/spark/hadoop-2.6.0/tmp目录就好
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/spark/hadoop-2.6.0/tmp/dfs/data</value> #只需要手动创建/spark/hadoop-2.6.0/tmp目录就好
    </property>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>
2、core-site.xml文件:

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://kid</value> #kid是我的主机名
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/spark/hadoop-2.6.0/tmp</value> #手动创建这个目录
    </property>
</configuration>
3、mapred-site.xml文件:

<configuration>
    <property>
        <name>mapred.job.tracker</name>
        <value>localhost:9001</value>
    </property>
</configuration>
4、不用配置yarn-site.xml文件

5、在/spark/hadoop-2.6.0/etc/hadoop目录下创建文件masters,并写入kid(我的主机名)

6、在/spark/hadoop-2.6.0/etc/hadoop目录下创建文件slaves,并写入kid。和masters文件的内容一样,是因为这是伪分布模式,主从主机都是主节点本身。

7、其他需要导出的环境变量配置请参考别的文章,比较简单。

8、启动hadoop:

hadoop namenode -format
./start-all.sh #在/spark/hadoop-2.6.0/sbin下执行

打开http://localhost:50070就可以看到界面了

出现的小问题:

kid: ssh: connect to host kid port 22: Connection timed out
打开/etc/hosts之后,发现是因为ip地址与kid对应关系错了。

9、打开spark连接hadoop:

./start-all.sh #在/spark/spark-1.6.0/sbin下执行

打开http://localhost:8080就可以看到界面了

10、在hadoop上创建文件后,打开spark-shell界面,运行统计词频的代码:

hadoop dfs -mkdir -p /user/hadoop #创建目录
hadoop dfs -put input_file.txt /user/hadoop #上传文件
scala> val file=sc.textFile("hdfs:///user/hadoop/input_file.txt") #hdfs上的文件中径为:/user/hadoop/input_file.txt  
scala> val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)   
scala> count.collect() #输出结果  
scala> count.saveAsTextFile("hdfs:///user/hadoop/result") #存放到result目录下 
hadoop dfs -copyToLocal /user/hadoop/result ./ #下载结果

默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读
本地文件读取 sc.textFile("路径").在路径前面加上file:// 表示从本地文件系统读,如file:///home/user/spark/README.md






版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Spark的伪分布安装和wordcount测试

一:环境说明              Ubuntu:15.10(不稳定版,建议安装在稳定版,Ubuntu下XX..4是稳定的)     ...

Spark 伪分布式 & 全分布式 安装指南

Spark 伪分布式 & 全分布式 安装指南 发表于4个月前(2015-04-02 03:58)   阅读(3891) | 评论(5) 156人收藏此文章,我要收藏 赞6 目录[-...

QDir类参考

http://www.kuqin.com/qtdocument/qdir.html#entryList

Spark伪分布安装(依赖Hadoop)

一、伪分布安装Spark 安装环境: Ubuntu 14.04 LTS 64位+Hadoop2.7.2+Spark2.0.0+jdk1.7.0_76 1、安装jdk1.7 (1)下载jdk-7u76-...

RedHat6.5安装Spark集群

版本号: RedHat6.5   RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8      http://blog.csdn.net/chongx...

c#net操作xml小结

转.net操作xml小结 一、简单介绍 using System.Xml; //初始化一个xml实例 XmlDocument xml=new XmlDocument(); //导入指...

Spark 伪分布式安装教程

前言  MR跑迭代算法的局限性太大,后续想将一部分任务转移到spark上。公司其他组每天有提交Spark任务在Yarn上运行。但是他们的客户机,我们组没有权限登录,而且他们也没有相应的测试机器。于是一...

Spark本地模式与Spark Standalone伪分布模式

spark的本地模式类似于hadoop的单机模式,是为了方便我们调试或入门的。 1.先去官网下载下来http://spark.apache.org/downloads.html,不要下错了,下载pre...
  • Dr_Guo
  • Dr_Guo
  • 2016-04-23 21:25
  • 6786

Spark1.6.0 Hadoop2.6.0 单机win7下配置(Intellij IDEA)

1. 首先需要注意的Scala版本要与Spark相应版本对应 比如Spark1.6.0,官网上给出了依赖 Spark runs on Java 7+, Python 2.6+ and R 3.1+...

Hadoop2.6.0伪分布式xml配置文件

一、hadoop伪分布式的三个配置文件1.core-site.xml文件配置 2.hdfs-site.xml文件配置 在/usr/local/hadoop目录下创建tmp文件夹,再在tmp目录...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)