Spark之Scala语言常见应用举例

初学者在IntelliJ IDEA中使用Scala和Spark进行编程,通过导入必要的jar包开始学习。由于未搭建Hadoop环境,选择读取本地txt文件以练习Spark RDD功能,如count、union和reduce等操作,展示了统计行数、词频排序和数据合并的基本应用。
摘要由CSDN通过智能技术生成

       作为一个初学者,初次学习Spark,分享一下自己的心得。

        在学习Spark编程时,首先得准备编译环境,确定编程语言,本人用的是Scala语言,IntelliJ IDEA编译环境,同时得准备四个包,分别是:spark-assembly-1.3.1-hd-2.6.0.jar、scala-compiler.jar、scala-library.jar、scala-reflect.jar。将这四个包导入,才能开始自己的Scala编程之旅。

       由于Hadoop环境没有搭建好,所以在练习Scala编程的时候,就不能再Hadoop之上读取HDFS的数据,不过不碍事,为了练习编程,我们可以读取本地的txt文件,然后将结果保存到txt中,这样不仅能感受到Spark RDD的强大,也能达到我们练习编程的目的。下来主要是用实例说明一下Spark RDD常用的一下操作。

       首先我们得配置SparkConf(),一般是读取HDFS上的文件,但是这里读取本地txt文件,配置SparkConf()如下:

<span style="font-size:18px;"><span style="font-size:18px;">conf=new SparkConf().setAppName("Test").setMaster("local[4]")</span></span>

        解释一下:Local[N]:本地模式,使用 N 个线程。

        下面这个程序是使用count()统计行数

<span style="font-size:18px;">object yb {
  /*
   统计行内容出现的次数,即相同行一共出现多少次
   */
  def main(a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值