idea构建spark开发环境

最新推荐文章于 2024-06-27 12:30:00 发布

pcno1

最新推荐文章于 2024-06-27 12:30:00 发布

阅读量1.7k

点赞数

分类专栏：大数据文章标签： spark idea maven

本文链接：https://blog.csdn.net/pcno1/article/details/53611035

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.准备环境

win7
jdk8
scala-2.11.8
spark 2.0.2
apache-maven-3.3.9

软件安装好设置好环境变量
maven需要设置国内的服务器，不然是半天都下载不了
国内服务器 maven的mirror

2.idea设置

2.1 新建Maven工程

这里写图片描述

设置Auto-Import，maven会自己关联相关的包
这里写图片描述

这里写图片描述

写个程序测试一下scala环境
这里写图片描述

写个wordcount测试spark环境

import org.apache.spark.{SparkContext, SparkConf}

/**
  * Created by Administrator on 2016-12-13.
  */
object Wordcount {
  def main(args: Array[String]) {

    val conf = new SparkConf()
    conf.setAppName("my word count")
    conf.setMaster("local")

    val sc = new SparkContext(conf)

    //    var line = sc.textFile(args(0))
    val lines = sc.textFile("F:\\vmware\\share\\soft\\spark-1.6.0-bin-hadoop2.6\\README.md")

    //对每一行的字符串进行单词拆分并把所有行的拆分结果通过flat合并成为一个
    val words = lines.flatMap{ line => line.split(" ")}
    val pairs = words.map(word => (word,1))

    val wordCounts = pairs.reduceByKey(_+_)

    wordCounts.foreach(wordNumberPair => println(wordNumberPair._1 + " = " + wordNumberPair._2))
    sc.stop()

  }
}