作为一个初学者,初次学习Spark,分享一下自己的心得。
在学习Spark编程时,首先得准备编译环境,确定编程语言,本人用的是Scala语言,IntelliJ IDEA编译环境,同时得准备四个包,分别是:spark-assembly-1.3.1-hd-2.6.0.jar、scala-compiler.jar、scala-library.jar、scala-reflect.jar。将这四个包导入,才能开始自己的Scala编程之旅。
由于Hadoop环境没有搭建好,所以在练习Scala编程的时候,就不能再Hadoop之上读取HDFS的数据,不过不碍事,为了练习编程,我们可以读取本地的txt文件,然后将结果保存到txt中,这样不仅能感受到Spark RDD的强大,也能达到我们练习编程的目的。下来主要是用实例说明一下Spark RDD常用的一下操作。
首先我们得配置SparkConf(),一般是读取HDFS上的文件,但是这里读取本地txt文件,配置SparkConf()如下:
<span style="font-size:18px;"><span style="font-size:18px;">conf=new SparkConf().setAppName("Test").setMaster("local[4]")</span></span>
解释一下:Local[N]:本地模式,使用 N 个线程。
下面这个程序是使用count()统计行数
<span style="font-size:18px;">object yb {
/*
统计行内容出现的次数,即相同行一共出现多少次
*/
def main(a