文章目录
一、提出任务
二、完成任务
(一)新建Maven项目
(二)添加相关依赖和构建插件
(三)创建日志属性文件
(四)创建词频统计单例对象
(五)本地运行程序,查看结果
(六)对于程序代码进行解析
(七)将Spark项目编译和打包
(八)将词频统计应用上传到虚拟机
(九)在集群上执行词频统计应用
1、提交应用程序到集群中运行
一、pandas是什么?
二、使用步骤
1.引入库
一、提出任务
单词计数是学习分布式计算的入门程序,有很多种实现方式,例如MapReduce;使用Spark提供的RDD算子可以更加轻松地实现单词计数。
在IntelliJ IDEA中新建Maven管理的Spark项目,并在该项目中使用Scala语言编写Spark的WordCount程序,最后将项目打包提交到Spark集群(Standalone模式)中运行。
预备工作:启动集群的HDFS与Spark
HDFS上的单词文件 - words.txt
二、完成任务
(一)新建Maven项目
新建Maven项目,基于JDK1.8
设置项目信息(项目名称、保存位置、组编号以及项目编号)
单击【Finish】按钮
将java目录改成scala目录
(二)添加相关依赖和构建插件
在pom.xml文件里添加依赖与Maven构建插件
<?xml version="1.0" encoding="UTF-8"?>
4.0.0
net.zx.rdd
SparkRDDWordCount
1.0-SNAPSHOT