写在前面
一直想学习一下大数相关知识,之前感觉门槛有点高,跑一个HelloWorld需要安装配置一大堆东西,最近有点时间,重新想学习一下大数据相关知识,这次我选择了Scala+Spark,感觉入门比较容易,也是现在大数据主流使用的技术吧,想升职加薪,撑握大数据分析还是很有必要的!
Maven选择
Scala环境搭建主要是两种方式一种是传统的Maven还有一种是Sbt,不过使用Sbt一直都是慢爆了,找了很多解决方法还是很慢,所以Maven是个很好的替代品,从Java过来的应该都会
创建项目
1.使用Idea创建新的Maven项目,勾选Create from archetype 然后选择canel-archetype-scala,如下图所示
2.这个archetype会生成很多我们用不到的东西,所以删除Pom中不需要的东西,使用如下pom配置 ,然后再删除项目中自动生成的类
3.创建我们自己的helloSpark.scala
计算过程分析
- flatMap(line => line.split(” “)) 按安空格拆分文件中单词
- map(word => (word, 1)) 将每个词映射成 (word,1),word是重复的
- reduceByKey((x, y) => x + y) 将key相同的单词相加得到,word不重复
- sortBy(_._2,false) 按词数量排序
- foreach(println _) 输出结题
4.输出结果
学习数据及源代码