一、 利用spark从hadoop的hdfs中读取数据并计算
1.1准备阶段
部署好hadoop分布式搭建(+zookeeper,6台机器)可以参考这篇博客:http://blog.csdn.net/vinsuan1993/article/details/70155112
主机名 |
IP |
安装的程序 |
运行的进程 |
Heres01 |
192.168.2.108 |
jdk、hadoop、zookeeper、spark |
DataNode JournalNode Master QuorumPeerMain NodeManager |
Heres02 |
192.168.2.99 |
jdk、hadoop、zookeeper、spark |
DataNode JournalNode Worker QuorumPeerMain NodeManager |
Heres03 |
192.168.2.109 |
jdk、hadoop、zookeeper、spark |
DataNode JournalNode Worker QuorumPeerMain NodeManag |