目 录
第4章 使用Java语言编写MapReduce程序
【实训4-1】安装与配置Maven本地仓库
【实训目的】
(1)掌握安装和配置Maven的方法
(2)掌握配置Maven国内镜像的方法
【实训步骤】
(1)下载Maven软件包。
- 版本选择:建议选择3.5.4,太高或者太低都不行。
- 下载地址:http://mirrors.tuna.tsinghua.edu.cn/
(2)安装Maven
- 将maven解压到D盘,并创建一个新目录,做为Maven的本地仓库。
(3)配置Maven的环境变量。
- 在“我的电脑”桌面图标上点击右键,打开“属性”窗口中创建。
- 在PATH中添加Maven的bin路径。
(4) 配置Maven本地仓库。
- 修改Maven的conf/settings.xml文件。
(5) 初始化Maven本地仓库。
【实训4-2】配置IDEA编译环境
【实训目的】
(1)掌握下载安装IDEA的方法
(2)熟练掌握配置Maven、插件的方法
(3)熟悉IDEA的基本使用方法
【实训步骤】
(1) 下载软件包并安装。
- IDEA共有企业版、企业EAP版、社区版共三个版本,其中可以免费下载使用。
- 社区版IDEA的下载地址:https://www.jetbrains.com/
(2) 配置IDEA编程环境。
- 配置界面风格,建议使用默认风格:Darcula。
- 配置插件,可以使用默认值,点击Next
- 下载插件,建议下载Scala插件,Scala是Spark编程语言。
(3)在Idea中配置Maven基本参数。
- 打开配置界面。
- 打开配置界面。
- 修改Maven配置。
修改完成后点击“OK”按钮保存配置。
【实训4-3】编写第一个Java运用程序
【实训目的】
(1)掌握编写pom.xml文件的基本方法
(2)学会使用Maven面板编译和打包项目
(3)学会使用Log4j组件控制信息输出
(4)掌握在Linux环境下运行Java项目
【实训步骤】
(1) 准备工作。
- 程序功能:逐行读取一个文本文件,打印输出文件内容。
- 准备数据:一个英文文本文件(可以将maven的licenses复制一部分),放置在本地目录中。
- 按照教材步骤,创建一个java程序项目。
(2) 编写log4j.properties文件。
- 功能:细致地控制日志的生成过程。
- 文件保存特定位置:项目的src/main/resources目录,存放目录则无法控制日志输出。
- 文件典型内容。
(3) 编写pom.xml文件(具体内容参考教材)。
(4) 源代码
(5)调试、编译、打包应用程序
【实训4-4】编写Hadoop经典程序WorldCount
【实训目的】
(1)了解MapReduce基本原理
(2)掌握使用Java语言编写MapReduce程序的基本步骤和方法
(3)熟练掌握MapReduce中泛型参数特点
(4)掌握编译与执行MapReduce程序的方法
【实训步骤】
- 在Ideac中创建名为wordcoun的Java项目
(2)编写MyMapper、MyReducer类。
- MyMapper类。
- MyReducer类框架。
(3) 编写主执行类MyWordCount
(4)本地调试。
- 在下面的注释语句和执行语句之间切换,可以实现本地与远程调试的切换。
【实训4-5】分析通信基站数据
【实训目的】
(1)掌握使用MapReduce分析数据的方法
【实训步骤】
- 创建项目、编写pom.xml文件(在项目四pom.xml文件基础上修改)
(2)编写执行类、map、reduce类。因为代码与项目四基本相同,此处只列出需要注意的地方。
(3)打包后提交到Ubuntu虚拟机运行,最后查看结果。