首先,在本地安装scala运行环境。本地已有Eclipse环境,只需在Eclipse环境中下载安装scala插件即可。
安装scala插件:参考博客 https://blog.csdn.net/juan0728juan/article/details/74531922
scala特性:
scala是一种集面向对象特性和函数式特性于一身并可运行在JVM上的强类型静态语言。因为可以运行在JVM上,并在设计时借鉴于大量的java语言特性,故可以和java互动并可以调用java相关类库
函数声明:
def functionName ([参数列表]) : [return type]
functionName ([参数列表]) : [return type]
spark
任何Spark程序都是SparkContext开始的,SparkContext的初始化需要一个SparkConf对象,SparkConf包含了Spark集群配置的各种参数。
初始化后,就可以使用SparkContext对象所包含的各种方法来创建和操作RDD和共享变量。Spark shell会自动初始化一个SparkContext,在编程中的具体实现为:
val conf = new SparkConf().setAppName("AppName").setMaster("local[3] or masterIP:PORT")
val sc = new SparkContext(conf)
rdd = sc.parallelize(data,n)//将data数据集切成n个slices,分到集群上,每个集群上会自动得到k(最好2-4)个slices
接下来为rdd数据的一些操作
map
flatMap
...
最后rdd.collect收集数据
参考:https://blog.csdn.net/u013007900/article/details/79307948