Spark2.4.5词频统计(python)

最新推荐文章于 2023-04-01 11:46:08 发布

rosefunR

最新推荐文章于 2023-04-01 11:46:08 发布

阅读量1.3k

点赞数 1

分类专栏： Spark

本文为博主CSDN Rosefun96原创文章，转载请注明。

本文链接：https://blog.csdn.net/rosefun96/article/details/105491660

版权

Spark 专栏收录该内容

17 篇文章 2 订阅

订阅专栏

使用jupyter notebook作为交互工具，python语言写。

代码

sc.textFile()用于加载文件数据。

words = sc.textFile('/data/word.txt')

结果：

/data/word.txt MapPartitionsRDD[3] at textFile at NativeMethodAccessorImpl.java:0

这是由于Spark的惰性操作。
添加行动操作：

words.first()

词频统计：

wordCount = words.flatMap(lambda line:line.split(" ")).map(lambda word:(word,1)).\
reduceByKey(lambda a, b: a+b)
wordCount.collect()

结果：

[('is', 42),
 ('sheet', 3),
 ('material', 6),
 ('produced', 7),
 ('mechanically', 2),
 ('and/or', 1),
 ('cellulose', 3),
 ('derived', 3),
 ('rags,', 1)]

textFile.flatMap()操作把多个单词集合“拍扁”到一个大的单词集合；
单词集合执行map()操作。
经过map，得到RDD，每个元素是（key,value）形式。最后执行reduceByKey()按照key进行分组，相同key的value相加。

参考：

Spark2.1.0+入门：第一个Spark应用程序：WordCount(Python版);

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

rosefunR

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark案例：Python版统计单词个数

howard2005的专栏

12-14

4486

利用Python版Spark统计单词个数

[Spark streaming举例]-- 统计一段时间内的热搜词

欢迎来到我的博客，一起探索代码里的世界！

06-04

5755

如下 package com.my.scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Durations, StreamingContext} /** * * 使用开窗函数实现spark streaming，版本统计一段时间内前三的热搜词汇 * * 测试结果：测试成功 *...

参与评论您还未登录，请先登录后发表或查看评论

03 使用spark进行词频统计【python】

张力的程序园

06-06

2273

本节将展示如何在spark中通过python进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站作者的机子ip是192.168.100.200，主机名为danji，请读者根据自己实际情况设置已完成scala方式的词频统计 https://www.jianshu.com/p/92257e814e59 已经有待统计的文件word上传到HDFS，名字为/wo...

python写wordcount_Python开发Spark应用之Wordcount词频统计

weixin_36053398的博客

02-03

1005

一个早上只做了一点微小的工作，很忏愧。但是发现Spark这玩意还是蛮有意思的。下面给大家介绍一下如何用python跑一遍Wordcount的词频统计的示例程序。在operator模块中导入add类from pyspark import SparkContext, SparkConf from operator import add#应用程序名#初始化一个SparkContext，现在sc就是一个S...

Python & Spark学习笔记系列【第二章】例子：单词统计+文件存储

lwb314的专栏

02-22

614

一般Spark上来好像都是单词统计，这里我也写一个，之后再带上点其他的函数，Spark和Python语法是真的难理解，这里我把我的理解都写在程序代码注解上了，直接上代码 from pyspark import SparkContext, SparkConf import os # 没有这句会报错 os.environ['JAVA_HOME'] = 'D:\Java\jdk1.8.0_92' ...

spark streaming（实时流词频统计）

weixin_49165958的博客

12-21

1724

首先在idea里导入maven依赖包 <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <version>2.0.0</version> </dependency> <dependency> <groupId&

Spark大数据处理讲课笔记2.2 搭建Spark开发环境

最新发布

ZYF2190003497的博客

04-01

285

转化操作会由一个RDD 生成一个新的RDD。另一方面，行动操作会对RDD 计算出一个结果，并把结果返回到驱动器程序中，或把结果存储到外部存储系统（如HDFS）中。：Spark 3.3.2使用的Scala版本其实是2.12.15。创建出来后，RDD 支持两种类型的操作：转化操作（计算1 + 2 + 3 + ……例2、调用转化操作filter()利用print函数输出了一条信息。例3、调用行动操作first()就会报错，目前没有解决问题。在pyspark里完成。例1、创建一个RDD。

九、Spark模块和安装

微信号：RunsenLiu

08-03

1232

@Author ： By Runsen @Date ： 2020/6/21 作者介绍：Runsen目前大三下学期，专业化学工程与工艺，大学沉迷日语，Python， Java和一系列数据分析软件。导致翘课严重，专业排名中下。.在大学60%的时间，都在CSDN。在一月到四月都没怎么写博客，因为决定写书，结果出书方说大学生就是一个菜鸟，看我确实还是一个菜鸟，就更新到博客算了。我把第九章更新到博客上。 9.6 Spark 9.6.1 Spark模块和安装（1）Spark模块 Apache Spark是一个

基于spark的文本相似性匹配

weixin_43250857的博客

07-21

2473

基于spark的文本相似度匹配查找原文本文件是txt格式的多文本，数量大约一万五千个，项目需求是对这些文本进行相似度的匹配，找出那些文本之间内容是相似的。文本内容类似如下：项目环境 linux环境 hadoop2.7.1 spark2.4.5 项目思路数据预处理把一万多个文本数据合并为一个合理的创建标题，有助于目录的生成直接输入1次#，并按下space后，将生成1级标题。输入2次#，并按下space后，将生成2级标题。以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

Spark：StructStreaming

m0_57498038的博客

07-26

1163

目录 01：上篇回顾 02：本篇内容 03：SparkStreaming的缺点 04：StructStreaming的设计 05：官方示例WordCount 06：自定义开发WordCount实现 07：Source数据源类型及File Source 08：常用Query查询器选项 09：Sink数据源：支持类型 10：Sink数据源：Foreach Sink 11：StructStreaming容错机制 12：集成Kafka：消费Kafka数据 13：集成Kafka：生产Kafk

spark的WordCount词频统计

Remix_xy的博客

06-20

956

spark入门练习，词频统计，简单案列

Spark——第一个Spark应用程序之WordCount单词统计(Scala/Python/Java)

aof

07-11

1098

入门Spark的第一个小例子就是编写一个简单的WordCount程序，来统计一个文件中每个单词的个数。接下来分别是用Scala、Python和Java三种语言来实现WordCount的代码，都是基于Spark2.0+版本和本地local模式。编写Spark应用程序选择哪种语言？首先，推荐使用Scala，因为Spark的底层源码主要是基于Scala编写的，对Scala...

Spark：交互式下实现词频统计

博樽

03-12

768

word.txt 文件上传到hdfs、进入Spark-shell 交互式

spark python初学（一）针对某个单词计数版本0

rifengxxc的博客

07-16

611

针对spark下README.md进行单词计数的python代码。具体单词可以在9 10行更改

本地Spark单词统计：Spark第一步

OutRoading的博客

06-05

294

第一步挺简单的，两步：引包，写代码引包： <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>2.1.1</ve...

使用Python本地运行Spark获取中文文章词频TopN

SpecialRiot的博客

03-07

1698

1.环境准备在Windows下使用Pycharm运行Spark代码_SpecialRiot的博客-CSDN博客 2.代码实现分词使用的jieba分词框架，通过分词后进行wordCount操作再对value进行排序，截取前N个。 from pyspark import SparkConf,SparkContext import jieba def main(sc): textFile = sc.textFile("./word.txt") #分词一行变多行

Spark RDD:词频统计

qq_57026298的博客

06-17

649

Spark RDD

04 使用spark进行词频统计【java maven】

张力的程序园

06-18

307

我们已经了解了在spark命令行当中使用交互方式完成词频统计，本节将阐述在idea当中使用maven环境完成java代码，并进行词频统计。 1 系统、软件以及前提约束 CentOS 7 64 工作站作者的机子ip是192.168.100.200，主机名为danji，请读者根据自己实际情况设置已在linux中完成scala交互方式的词频统计 https://www.jiansh...

【spark 词频统计】spark单词进行计数升级版

赖德发的博客

06-14

3621

下面的代码对文件里的单词进行计数，筛选出现过10次的单词，然后对这些单词中的每个字符出现的次数进行计数。最后，通过collect action操作触发job的执行。这些转换中有两个是stage边界（它们有宽依赖）。代码中的两个reduceByKey转换是生成3个stage的原因：val words = sc.textFile("textFilePath").flatMap(_.split(' '))

CentOS 7上单机部署Spark 2.4.5：从JDK安装到环境配置

本文档详细介绍了如何在Linux单机版系统，尤其是CentOS 7上安装Spark 2.4.5，以便为开发智能推荐引擎的项目提供一个测试环境。以下是安装步骤的详细说明： 1. **Java Development Kit (JDK) 安装**：首先，从...