目录
4.1.1启动IDEA并创建一个新项目WordCount 3
4.1.2为WordCount项目添加Scala框架支持... 7
4.1.9打包WordCount程序生成JAR包... 14
4.1.2在spark-shell交互式环境中读写MySQL数据库... 20
一、使用IDEA开发WordCount程序
二、实验目的
掌握使用IntelliJ IDEA开发Spark应用程序。
三、实验要求
使用IntelliJ IDEA开发本地Spark应用程序。
部署分布式Spark应用程序。
四、实验环境
x86_64 ubuntu 16.04
JDK1.8
Spark-2.1.0
Hadoop-2.7.1
IntelliJ IDEA-3.7
scala-2.11.8
五、实验步骤
4.1.1启动IDEA并创建一个新项目WordCount
启动IntelliJ IDEA
cd /usr/local/idea
./bin/idea.sh
通过菜单“File-->New-->Project”打开一个新建项目对话框
单击左侧的“Maven”项,右侧将出现“Create from_archetype”复选框,不要选择,直接单击窗口底部的“Next”按钮
在弹出的窗口中,在“GroupId”对话框中填入“dblab”,在“ArtifactId”对话框中填入“WordCount”,然后,单击“Next”按钮
出现提示框需要单击底部的“Maven projects need to be imported”区域的“Enable Auto-Import”。这样,IDEA就可以自动连接网络下载Maven相关的依赖文件,以后每次修改项目中的pom.xml内容时,IDEA都会自动连接网络下载相关的依赖文件。
选中如下Maven的配置文件
4.1.2为WordCount项目添加Scala框架支持
Spark程序开发和运行,需要依赖Spark相关的jar包。按下图中所示依次选择,手动导入spark的jar包到项目中。
4.1.3数据准备
打开终端,在/usr/local/spark/mycode/目录下创建文件word.txt
cd /usr/local/spark/mycode/wordcount/
sudo vi word.txt
4.1.4设置项目目录
在界面左侧的项目栏中,在“src”目录的“main”子目录上,单击鼠标右键,在弹出的菜单中选择“New”菜单项,然后,子菜单中选择“Directory”菜单项,创建一个新目录。
在弹出的对话框中,输入目录名称“Scala”,单击“OK”按钮
在scala子目录上,单击鼠标右键,在弹出的菜单中选择“Mark Directory as”菜单项,再在子菜单中选择“Sources Root”菜单项,把“scala”目录设置为源代码目录。
在“java”子目录上,单击鼠标右键,在弹出的菜单中单击“Delete...”菜单项,删除这个目录
4.1.5新建Scala代码文件
在scala目录上单击鼠标右键,在弹出的菜单中单击“New”,然后在子菜单中选择“Scala Class”菜单项,新建一个Scala代码文件。
在弹出的窗口中,在“Name”对话框中输入“WordCount”,在“Kind”的下拉选项框中选择“Object”,单击“OK”按钮
4.1.6配置pom.xml文件
具体详情请点击以下链接查看文档: