scala 环境
- 首先命令行创建一个空的maven项目这一步参考文章linux命令行创建maven项目
- 使用jetbrain gateway连接到刚刚创建了maven项目的文件夹
- 打开settings/Plugins,安装scala插件
- src/main下创建scala文件夹(与Java文件夹同级),并mark as source root
5. 此时我们仍然不能创建scala文件,打开project structure/libraryies,点击加号,添加scala SDK。版本选择system就行
- 此时我们右键新建就有了scala class了
- 随便写个类测试一下,大功告成
spark 环境
接下来我们配置spark环境
- 打开根目录下pom文件添加依赖
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>3.3.0</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-sql_2.12</artifactId>
<version>3.3.0</version>
</dependency>
注意此处的2.12表示scala版本为2.12,需要和上一步导入的scala SDK版本保持一致
- 测试spark环境,出现日志打印和wordcount结果即成功
import org.apache.spark.{SparkConf, SparkContext}
object Test {
def main(args: Array[String]): Unit = {
val inputFile = "file.txt"
val conf = new SparkConf().setMaster("local").setAppName("WC")
val sc = new SparkContext(conf)
val textFile = sc.textFile(inputFile)
val wordCount = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
wordCount.foreach(println)
sc.stop()
}
}