sparke词频统计

最新推荐文章于 2024-04-02 13:01:45 发布

jzy2024

最新推荐文章于 2024-04-02 13:01:45 发布

阅读量284

点赞数

文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/m0_59791585/article/details/125432271

版权

文章目录

一、提出任务
二、完成任务
    （一）新建Maven项目
    （二）添加相关依赖和构建插件
    （三）创建日志属性文件
    （四）创建词频统计单例对象
    （五）本地运行程序，查看结果
    （六）对于程序代码进行解析
    （七）将Spark项目编译和打包
    （八）将词频统计应用上传到虚拟机
    （九）在集群上执行词频统计应用
        1、提交应用程序到集群中运行
一、pandas是什么？
二、使用步骤
    1.引入库

一、提出任务

单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供的RDD算子可以更加轻松地实现单词计数。
在IntelliJ IDEA中新建Maven管理的Spark项目，并在该项目中使用Scala语言编写Spark的WordCount程序，最后将项目打包提交到Spark集群（Standalone模式）中运行。
预备工作：启动集群的HDFS与Spark

在这里插入图片描述

HDFS上的单词文件 - words.txt

在这里插入图片描述

二、完成任务
（一）新建Maven项目

新建Maven项目，基于JDK1.8

在这里插入图片描述

设置项目信息（项目名称、保存位置、组编号以及项目编号）

在这里插入图片描述

单击【Finish】按钮

在这里插入图片描述

将java目录改成scala目录

在这里插入图片描述

（二）添加相关依赖和构建插件

在pom.xml文件里添加依赖与Maven构建插件

<?xml version="1.0" encoding="UTF-8"?>

4.0.0

net.zx.rdd
SparkRDDWordCount
1.0-SNAPSHOT

org.scala-lang scala-library 2.12.15 org.apache.spark spark-core_2.12 2.4.4 src/main/scala org.apache

最低0.47元/天解锁文章

jzy2024

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
sparke词频统计

5
复制链接

扫一扫

sparke词频统计

“相关推荐”对你有帮助么？