IntelliJ IDEA 使用Maven创建Spark WordCount

Maven选择
Scala环境搭建主要是两种方式一种是传统的Maven还有一种是Sbt,不过使用Sbt一直都是慢爆了,找了很多解决方法还是很慢,所以Maven是个很好的替代品,从Java过来的应该都会

创建项目
1.使用Idea创建新的Maven项目,勾选Create from archetype 然后选择canel-archetype-scala,如下图所示

2.这个archetype会生成很多我们用不到的东西,所以删除Pom中不需要的东西,使用如下pom配置 ,然后再删除项目中自动生成的类

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>com.spark</groupId>
  <artifactId>helloSpark</artifactId>
  <packaging>jar</packaging>
  <version>1.0-SNAPSHOT</version>
  <name>A Camel Scala Route</name>
  <dependencies>
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>2.0.0</version>
    </dependency>
  </dependencies>
  <build>
    <sourceDirectory>src/main/scala</sourceDirectory>
    <plugins>
      <plugin>
        <groupId>net.alchim31.maven</groupId>
        <artifactId>scala-maven-plugin</artifactId>
        <version>3.2.0</version>
      </plugin>
    </plugins>
  </build>
</project>


3.创建我们自己的helloSpark.scala

package com.spark
import org.apache.spark.{SparkConf, SparkContext}

object helloSpark {
  def main(args: Array[String]): Unit = {
    //设置本机Spark配置
    val conf = new SparkConf().setAppName("wordCount").setMaster("local")
    //创建Spark上下
    val sc = new SparkContext(conf)
    //从文件中获取数据
    val input = sc.textFile("D:\\data\\1.txt")
    //分析并排序输出统计结果
    input.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((x, y) => x + y).sortBy(_._2,false).foreach(println _)
  }
}


计算过程分析 
- flatMap(line => line.split(” “)) 按安空格拆分文件中单词 
- map(word => (word, 1)) 将每个词映射成 (word,1),word是重复的 
- reduceByKey((x, y) => x + y) 将key相同的单词相加得到,word不重复 
- sortBy(_._2,false) 按词数量排序 
- foreach(println _) 输出结题

4.输出结果:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值