2023_Spark_实验九：编写WordCount程序（Scala版）

pblh123

于 2024-09-26 20:53:41 发布

阅读量709

点赞数 3

分类专栏： Spark实验 Scala 文章标签： spark scala 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pblh123/article/details/142577595

版权

Spark实验同时被 2 个专栏收录

31 篇文章 4 订阅

订阅专栏

16 篇文章 1 订阅

订阅专栏

需求：

1、做某个文件的词频统计//某个单词在这个文件出现次数

步骤：

文件单词规律（空格分开）
单词切分
单词的统计（k,v）->(k:单词，V：数量）
打印

框架：

单例对象，main()
创建CONF
创建SC-->读取文件的方式--》RDD
RDD进行处理
闭资源关

一、新建object类取名为WordCount

2、编写如下代码

import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
    def main(args: Array[String]): Unit = {
        System.setProperty("hadoop.home.dir","D:\\hadoop\\hadoop-2.8.0")
        val sparkConf= new SparkConf().setAppName("WordCount").setMaster("local") //设置为本地模式

        val sc = new SparkContext(sparkConf)
        sc.setLogLevel("WARN")
        val resultArray = sc.textFile(path = "file:///d:/temp/a.txt")
            .flatMap(_.split(" "))
            .map((_,1))
            .reduceByKey(_+_)
            .collect()
        resultArray.foreach(println )
        sc.stop()
    }

}

3、本地运行，查看运行结果如下：

解决无法下载spark与打包插件的办法

maven打包插件与spark所需依赖下载地址：

链接：百度网盘请输入提取码

提取码：jnta

解决步骤：

到网盘下载maven打包插件与spark依赖，网盘吗中的内容如下：

将下载的插件plugins.rar解压，并复制插件文件夹到你本地maven仓库下
将下载的spark依赖spark.rar解压，并复制spark文件夹到你本地maven仓库下
重启idea，重新build下工程

将下载的插件plugins.rar解压，并复制插件文件夹到你本地maven仓库下

将下载的spark依赖spark.rar解压，并复制spark文件夹到你本地maven仓库下

重启idea，重新build下工程

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

pblh123 CSDN认证博客专家 CSDN认证企业博客

码龄13年

安艾艾迪信息技术（上海）有限公司

118: 原创

1万+: 周排名

1万+: 总排名

16万+: 访问

: 等级

2053: 积分

4895: 粉丝

841: 获赞

20: 评论

1024: 收藏

私信

关注

热门文章

分类专栏

Spark实验 31篇
Spark 10篇
Scala 16篇
MindSpore实践 21篇
MindSpore 25篇
可视化大屏 18篇
容器 1篇
工具使用 1篇
IDEA 6篇
Linux 10篇
flume 2篇
Java 4篇
windows 1篇
WMware 1篇
Centos7 3篇
RedHat 1篇
Hadoop 15篇
MySQL 2篇
数仓 1篇
SQL 3篇

最新评论

基于Scala开发Spark ML的ALS推荐模型实战
pblh123: 在 Spark 的机器学习中，如果某个用户的评分数据全部被划分到了测试集，在对这个用户进行推荐（transform）时，确实有可能出现 NaN 的情况。原因是当进行推荐计算时，如果没有该用户在训练集中的数据，模型可能无法准确预测该用户的偏好，从而导致结果出现缺失值（NaN）。为了避免这种情况，可以考虑以下方法： 1. 调整数据集划分策略，确保每个用户的部分数据在训练集中，以便模型能够学习到该用户的一些特征。 2. 使用更合适的推荐算法，一些算法可能对数据缺失有更好的处理方式。
基于Scala开发Spark ML的ALS推荐模型实战
Ocean_Hai22: 我有个问题想请教，如果划分数据集时，某个用户的评分数据全部都被划分到了测试集，当对这个用户进行推荐时(即transform那里)，你这里不会得到NaN吗？
昇思25天学习打卡营第9天|MindSpore-Vision Transformer图像分类
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619124193。
【可视化大屏开发】15.可视化大屏项目-网络访问静态数据无法更新问题修复
pblh123: 拼写检查错误有没有
【可视化大屏开发】15.可视化大屏项目-网络访问静态数据无法更新问题修复
过堂风QAQ: applicant.property也配置了，显示的No usages found in Project Files。

大家在看

Python库numpy之五

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。