大数据处理学习笔记2.4

最新推荐文章于 2024-07-31 00:15:05 发布

MISS0-0

最新推荐文章于 2024-07-31 00:15:05 发布

阅读量100

点赞数

文章标签：学习笔记大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_74001992/article/details/131124772

版权

一、词频统计准备工作
单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供的RDD算子可以更加轻松地实现单词计数。
在IntelliJ IDEA中新建Maven管理的Spark项目，并在该项目中使用Scala语言编写Spark的WordCount程序，最后将项目打包提交到Spark集群（Standalone模式）中运行。
（一）创建本地单词文件
在D:\spark_work\wordcount\input里创建单词文件words.txt
（二）启动集群的HDFS与Spark
启动HDFS服务

启动Spark集群

二）在HDFS上准备单词文件

在虚拟机上创建单词文件 - words.txt

将单词文件上传到HDFS指定目录/wordcount/input

二、本地模式执行Spark程序

（一）新建Maven项目

新建Maven项目，基于JDK11

设置项目信息（项目名称、保存位置、组编号以及产品编号）

单击【Finish】按钮

将java目录改成scala目录

二）添加相关依赖和构建插件
在pom.xml文件里添加依赖与Maven构建插件

由于源程序目录改成了scala，在<build>元素里必须添加子元素<sourceDirectory>，指定目录src/main/scala
（三）创建日志属性文件
在resources目录里创建日志属性文件 - log4j.properties

四）添加Scala SDK

安装配置Scala 2.12.15
在项目结构窗口的Global Libraries里添加Scala 2.12.15

五）创建词频统计单例对象

创建net.huawei.rdd包，然后在包里创建WordCount单例对象

六）本地运行程序，查看结果

首先看控制台输出结果

后查看HDFS上的结果文件内容

显示结果文件内容

有两个结果文件，我们可以分别查看其内容

再次运行程序，会报错说输出目录已经存在

-执行命令： hdfs dfs -rm -r /wordcount/output，删除输出目录

再次运行，查看结果

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
大数据处理学习笔记2.4

一、词频统计准备工作单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供的RDD算子可以更加轻松地实现单词计数。在IntelliJ IDEA中新建Maven管理的Spark项目，并在该项目中使用Scala语言编写Spark的WordCount程序，最后将项目打包提交到Spark集群（Standalone模式）中运行。（一）创建本地单词文件在D:\spark_work\wordcount\input里创建单词文件words.txt。
复制链接

扫一扫

博客等级 -

码龄2年

11
原创

0
点赞

1
收藏

2
粉丝

关注

私信

热门文章

分类专栏

课堂笔记 3篇

最新评论

大数据处理学习笔记1.1
CSDN-Ada助手: 非常感谢用户分享的《大数据处理学习笔记1.1》这篇博客，看到你持续创作，我感到非常高兴。你对大数据处理的学习笔记十分详实，让我深受启发。希望你能继续分享你的学习笔记，让我们能够一起进步。我的建议是，可以尝试结合实际案例，让读者更好地理解和应用大数据处理技术。再次恭喜你，期待你的下一篇博客。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
大数据处理学习笔记2.2
CSDN-Ada助手: 恭喜您写的第6篇博客，题目为“大数据处理学习笔记2.2”，看来您对大数据处理有着深入的研究和理解。希望您能够继续保持创作的热情，分享更多有价值的内容。在下一步的创作中，建议您可以结合实际案例或者应用场景，让读者更好地理解和应用大数据处理技术。再次感谢您的分享，期待您更多的精彩文章！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
大数据处理学习笔记2.4
CSDN-Ada助手: 非常感谢用户的分享，恭喜您又完成了一篇优质的博客。您的学习笔记对于大数据处理的初学者来说，无疑是一份非常宝贵的资料。同时，我们也期待您能够继续分享您的学习笔记，让更多的人受益。未来，我们建议您可以结合实际案例，分享一些实践心得，这样可以增加博客的实用性。再次感谢您的分享，期待您的下一篇博客。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
大数据处理讲课笔记3.1 掌握RDD的创建
CSDN-Ada助手: 非常感谢您的分享，第8篇博客的内容也非常丰富和有用。恭喜您能够坚持不懈地创作，帮助更多的读者理解和掌握大数据处理的知识。作为下一步的创作建议，建议您可以从实际应用和案例出发，结合具体业务场景，深入探讨大数据处理在实际应用中的价值和意义，这样可以更好地帮助读者解决实际问题。期待您的下一篇作品！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。
大数据处理讲课笔记3.5 RDD持久化机制
CSDN-Ada助手: 恭喜您写出了第9篇博客，标题也非常吸引人。感谢您分享了关于RDD持久化机制的讲课笔记，让我们对大数据处理有了更深入的了解。希望您能继续保持创作的热情，分享更多有价值的内容。下一步的创作建议是可以结合实际案例，深入探讨RDD持久化机制在实际应用中的优化策略。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply9 看奖励名单。

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。