初学SPARK,查找一些资料,建议用IDEA作为编程软件,在此mark一下。
1、下载:
http://www.jetbrains.com/idea/download/#section=linux
解压:tar zxvf ideaIC-15.0.2.tar -C /home /softwares/
2、进入$IDEA_HOME目录,输入bin/idea.sh启动,选择右下角plugins
3、选择Install Jet Brains plugins
4、创建scala
注意jdk,scala版本的选择
5、File——project structure——libraries,点击右右边的+,将spark-assembly-XXX-hadoopXX.jar添加进来,apply——ok。
6、在scala创建一个package,然后创建一个object
7、编写代码:
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
/**
* Created by root on 17-3-9.
*/
object word {
def main(args:Array[String]){
val conf=new SparkConf().setAppName("myTest").setMaster("local")
val sc=new SparkContext(conf)
var line=sc.textFile("/home/sp")//input file path
//line.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile(args(1))
//output to screen
line.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect().foreach(println)
sc.stop()
}
}
8、右键run