第10课:底实战详解使用Java开发Spark程序学习笔记
本期内容:
1. 为什么要使用Java?
2. 使用Java开发Spark实战
3. 使用Java开发Spark的Local和Cluster
1. 为什么要使用Java?
一. 实际在生产环境下,Spark作为数据处理引擎,需要与企业IT系统中的其他组件或功能配合使用。众所周知,现在业界处于霸主地位的开发语言是Java。很多时候,企业通过Java开发IT系统,后端通过Spark处理,如果使用Java,团队的组建、开发难度的降低,团队的合作,都有很大价值。
二. Scala从学习角度讲比Java难,所以招聘到Scala高手较难,所以项目的二次开发会比较困难。
三. Spark学习者有很多人不会Scala,但有Java基础,为了不会Scala的人能编写和运行课程中的案例,有必要讲Java。
2. 使用Java开发Spark实战
使用Java开发的集成工具是Eclipse。所以首先需要下载Eclipse,注意是32位还是64位。
1. 从www.eclipse.org/downloads 下载Eclipse。
2. 解压zip格式的Eclipse压缩文件。打开解压后的文件夹下的eclipse.exe即可打开eclipse。前提是安装配置好java。
3. 在Project Explorer区点击右键,或File,点击new->project,Wizards选择Maven Project
其他采用默认,点Next。
4. Select an Archety选择maven-archetype-quicstart后点击Next。
Group Id:填写: com.dt.spark,Artifact Id填写:SparkApps后点击finish。
此时出现下图所示错误:
Could not write metadata for '/RemoteSystemsTempFiles'.
D:\programFiles\eclipse\workspace\.metadata\.plugins\org.eclipse.core.resources\.projects\RemoteSystemsTempFiles\.markers.snap (系统找不到指定的路径。)
网上查了一下,需要修改一设置:
Window->preferences,填写'remote'选择remote systems, 将'reopen remote systems view to previous state'前面的勾去掉。
选择General->Startup and Shutdown,将RSE UI前的勾去掉。
话说回来,待Eclipse配置Maven完成后,可以看到SparkApps项目中的JRE System Library显示J2SE-1.5,需要修改此JRE版本。
在SparkApps项目点击右键,选择Build Path->Configure Build Path...,在Java Build Path中的Libraries标签中选择JRE System Library[J2SE-1.5],点击Edit
在“Select JRE for the project build path”中选择"Workspace default JRE(jre1.8.0_45)"后点击finish。
可以看到SparkApps项目中的Java版本变成了1.8。