0-背景
最近因为业务需求,开始鼓捣下kafka和spark。因为也是第一次做这方面的内容,而且没玩过java和scala。所以这个word count的例子,鼓捣了近两天才出结果。
整个流程如下:首先搭建虚拟机,安装ubuntu。然后在linux中安装spark。最后再本地的IDEA中开发scala,并打包jar包,发送到spark系统中,运行。最后结果如下:
下面对其中一些地方,记录下来。
1-spark安装
这里安装的spark是单机版的,不需要安装hadoop,整个安装过程比较简单,没必要在重述一遍了。具体的安装可以百度或者参照这
Linux安装、运行单机版Spark,或者去官网spark-standalone model。
2-IDEA开发
在安装完spark后。在本地安装了IDEA,并且安装了scala。scala是直接在IDEA中安装的。这里面我没有配置scala和sbt,是直接在IDEA中安装的scala,sbt也没管,应该是自带的。有点尴尬,网上有一些安装scala和sbt的教程。这里说明下。整个IDEA的流程,可以参照这里IDEA安装及环境配置(图文)
安装IDEA: