大数据基础：SparkWordCount

HanZee

已于 2022-09-25 13:00:23 修改

阅读量1.7k

点赞数 1

分类专栏：大数据基础文章标签：大数据 spark

于 2022-03-03 23:10:14 首次发布

本文链接：https://blog.csdn.net/qq_18555105/article/details/123265612

版权

大数据基础专栏收录该内容

6 篇文章 2 订阅

订阅专栏

本文介绍了如何使用pyspark在Python中实现WordCount的基本操作，从本地文件读取、数据转换到单词计数和结果聚合。通过实例展示了flatMap、map和reduceByKey的步骤，适合初学者理解Spark的数据处理流程。

摘要由CSDN通过智能技术生成

大数据基础：sparkWordCount实现

本次基于pyspark
新建一个data.txt文件用于本次作业

hello this is a spark demo!
welecome to here
a hot day
hot

本地读取文件

#读取本地文本文件
lines = sc.textFile("data.txt")
#通过flatMap操作把所有数据转行成rdd，把数据压成一列
result = lines.flatMap(lambda line : line.split(' ')
result.collect()

输出结果如下：
在这里插入图片描述

#把每一个元素转化成元组
result1 = result.map(lambda word : (word,1))

输出结果如下：在这里插入图片描述

#按key聚合累加
result2 = result1.reduceByKey(lambda a,b:a+b)
result2.collect()

输出结果如下：
在这里插入图片描述

关注博主即可阅读全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

HanZee

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SparkSQL完成WordCount

一个射手座程序猿

10-26

542

SparkSQL完成WordCount

实验十四 Spark实验：SparkWordCount

WistWill的博客

04-09

2232

实验指导： 14.1 实验目的熟悉Scala语言，基于Spark思想，编写SparkWordCount程序。 14.2 实验要求熟悉Scala语言，理解Spark编程思想，并会编写Spark 版本的WordCount，然后能够在spark-shell中执行代码和分析执行过程。 14.3 实验原理 Scala 是一门以 Java 虚拟机（JVM）为目标运行环境并将面向对象 (OO) ...

参与评论您还未登录，请先登录后发表或查看评论

Spark实战演练(1)-WordCount

weixin_45520075的博客

11-29

1468

大家好我是一名数据科学与大数据专业的一名大二学生，对大数据处理和大数据分析很感兴趣，写博客只是记录我学习的过程，并且与大家分享学习经验！

sparksql 2.x 写WordCount

念念的博客,记录学习的点点滴滴！

10-05

879

package com.ws.sparksql import org.apache.spark.sql.{DataFrame, Dataset, SparkSession} object SqlWordCount { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().appName(...

spark的wordcount案例实现以及原理

weixin_45793065的博客

07-04

926

spark的wordcount Local模式 1 、概述 Local模式就是运行在一台计算机上的模式，通常就是用于在本机.上练手和测试。它可以通过以下集中方式设置Master。 local:所有计算都运行在一- 个线程当中，没有任何并行计算，通常我们在本机执行一-些测试代码，或者练手，就用这种模式; local[K]:指定使用几个线程来运行计算，比如local[4]就是运行4个Worker线程。通常我们的Cpu有几个Core，就指定几个线程，最大化利用Cpu的计算能力; local[*]:这种模式

大数据技术之Spark ——（二）Spark快速入门案例 WordCount

m0_46615073的博客

09-02

792

目录一、IDEA编写wordcount 1、本地环境准备【1】创建maven项目【2】添加scala开发框架支持【3】测试scala运行环境是否成功【4】添加spark依赖关系 2、编写wordcount 【1】准备本地测试文件【2】编写代码【3】运行结果： 3、依赖导入下载太慢解决二、Spark编写wordcount 一、IDEA编写wordcount 1、本地环境准备【1】创建maven项目开发前请保证 IDEA 开发工具中含有 Scala 开发插件.

算法与大数据：理解算法在海量数据处理中的应用，掌握大数据处理技巧

![算法与大数据：理解算法在海量数据处理中的应用，掌握大数据处理技巧](https://static.wixstatic.com/media/a12fa8_c3eb58fc5e704267b4d251eecec36009~mv2.jpg/v1/fill/w_980,h_506,al_c,q_...算法是计算机科学的基础

大数据技术实践——Spark词频统计

08-23

【Spark技术实践——词频统计】在大数据领域，Spark作为一种高效的数据处理框架，以其快速、通用和可扩展性而受到广泛关注。本实践旨在基于已经搭建的Hadoop平台，利用Spark组件进行文本词频统计，以此深入理解Scala...

Spark(一)：基础简介安装和入门

m0_59737088的博客

08-04

278

Spark 基础一、Spark的介绍 1.定义 Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。 2.Spark VS MapReduce Spark的诞生仅仅是为了替换早期的Hadoop的MapReduce计算引擎。Spark并没有存储解决方案，在Spark的架构中，底层存储方案依然延续Hadooop的HDFS/Hbase.由于Hadoop的MapReduce是大数据时代出现的第一类大数据分析工具，因为出现比较早仅仅为了满足大数据计算的刚性需求（能够做到对大数据的计算，并且可以保证在一

Spark基础【介绍、入门WordCount案例】

weixin_43923463的博客

08-04

1720

HadoopSparkHadoopSpark由上面的信息可以获知，Spark出现的时间相对较晚，并且主要功能主要是用于数据计算，所以其实Spark一直被认为是Hadoop框架的升级版，但其实不是NameNode是单点的，容易出现单点故障，制约了集群的发展NameNode是单点的，受到了硬件的制约，制约了集群的发展MapReduce运行速度太慢，主要因为设计理念的问题，MR早期就是用于单一数据计算，在当前数据挖掘和数据迭代计算情景中不适用MR框架和Hadoop耦合性非常强，无法分离增加了一个资源调度框架，将计

Spark的多种wordcount写法

赵昕彧

03-31

345

一、经典写法：SparkCore import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object sparkcore_wordcount { def main(args: Array[String]): Unit = { // 参数配置 val conf = new SparkConf().setMaster("local[2]").setAppNam.

Spark各个版本WordCount介绍

丰brother的博客

05-22

1050

Spark各个版本WordCount介绍 spark分为3种数据类型：RDD,DataSet,DataFrame 下面介绍使用3种不同数据类型的WordCount程序初始数据集： a,b c,a d,b a,d 1. 初始变量类型RDD 使用SparkContext 读取文件方法： &...

Spark 之WordCount

congge_study的博客

04-10

6916

Spark 之WordCount

SparSQL版 wordCount

null

09-27

1029

原始数据hello word sord RDD RDD hello hello world hello c++ hello world world ni hao 输出结果+-----+------+ | word|counts| +-----+------+ |hello| 5| |world| 3| | RDD| 2| | hao| 1| | sord|

大数据实验（七）Spark单机安装及WordCount(TopKey)

cgl_dong的博客

06-12

318

大数据实验（七）Spark单机安装前置环境 Ubuntu 16.04 Hadoop 2.7.3 Java JDK 1.8 Spark 3.0.0-preview2 一、Spark安装 001、下载Spark 在Apache官网找到合适的版本进行下载，下载了Spark 3.0.0-preview2。 002、安装将Spark 3.0.0-preview2解压到/usr/local下，改名为spark 003、配置环境变量 sudo vim ~/.bashrc 加入位置 # Spark Enviro

Spark实现WordCount的11种方式

weixin_43750933的博客

09-17

570

方法1: groupBy import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount_01_groupBy { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("WordCount.

Hadoop+Spark下的wordcount实验记录

weixin_43850920的博客

05-30

2282

大数据词频统计实验报告文末附github数据及代码，希望各位可以给我提一些建议，也可以对内容展开讨论。目录一、实验目标... 2 二、实验设计... 2 1.数据源... 2 2.实验内容... 2 3.代码模块设计... 3 三、实验流程... 3 1.本机配置信息... 3 2.配置过程中的问题... 4 3.数据下载及上传... 4 4.spark配置及spark-shell启动... 5 ...

Spark DataSet介绍

象在舞的技术专栏

04-25

7899

声明：代码主要以Scala为主，希望广大读者注意。本博客以代码为主，代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》，欢迎大家关注。 Spark的发展史可以简单概括为三个阶段，分别为：RDD、DataFrame和DataSet。在Spark 2.0之前，使用Spark必须先创建SparkConf和SparkContext，不过...

spark-streaming实现wordcount（详细步骤）

大数据

05-24

1322

一、命令行方式实现 1.1 创建目录logfile cd spark-3.1.1-bin-hadoop2.7/Test mkdir -p streaming/logfile 1.2 进入spark-shell cd cd spark-3.1.1-bin-hadoop2.7/bin/ spark-shell 1.3 命令行依次输入以下代码查看实验结果 import org.apache.spark._ import org.apache.spark.streamin.

大数据基础：走进大数据时代

"大数据基础-第一章-大数据概述.ppt" 这篇文档主要介绍了大数据的基础知识，包括大数据的概念、应用现状、相关技术、解决方案、对企业数字化转型的影响以及面临的挑战和发展前景。以下是对这些内容的详细解读： 1....