spark环境的搭建和联系
spark包括
SparkCore: 核心部分
SparkSQL: Spark中交互式处理模块
SparkStreaming: Spark中流式数据处理的模块
SparkMLib:Spark机器学习相关模块 => Mahout
SparkGraphX: Spark中图形计算的模块
编译spark
配置文件修改 make-distribution.sh文件(:130,跳转到相应的行)
修改pom文件
添加依赖服务,减少编译下载的网络消费 (/xxxx,在shell中搜索)
使用脚本文件开始编译,编译使用apache的Hadoop版本
./make-distribution.sh --tgz \
-Phadoop-2.4 \
-Dhadoop.version=2.5.0 \
-Pyarn \
-Phive -Phive-thriftserver