spark复习笔记(3)：使用spark实现单词统计

最新推荐文章于 2022-09-28 15:13:32 发布

aikunjiao3421

最新推荐文章于 2022-09-28 15:13:32 发布

阅读量675

点赞数 1

文章标签：大数据 shell scala

原文链接：http://www.cnblogs.com/bigdata-stone/p/9848337.html

版权

wordcount是spark入门级的demo，不难但是很有趣。接下来我用命令行、scala、Java和python这三种语言来实现单词统计。

一、使用命令行实现单词的统计

　　　　1.首先touch一个a.txt文本文件

　　　　2.加载文本：产生弹性分布式数据集，用sc.textFile()加载文本文件到内存中去，加载到内存之后，整个RDD就是一个数组，就以换行符来做分隔

val rdd1 = sc.textFile("/home/centos/a.txt")

　　　　3.对2中产生的数组按空格进行切割，切开之后每个元素就变成了一个数组，[hello,world1]

val rdd2=rdd1.flatMap(line=>line.split(" "))

　　　　4.对3中产生的结果进行key,value键值对额转换

val rdd3=rdd2.map(wor=>(word,1))

　　　　5.对4中的结果进行聚合

val rdd4=rdd3.reduceByKey(_ + _)

　　　　5.查看结果

　　　　6.一步操作

　　　　7.实现单词过滤

对于spark-shell这种环境一般只用于测试和调试

转载于:https://www.cnblogs.com/bigdata-stone/p/9848337.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

aikunjiao3421

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Spark实现单词计数(Java)

weixin_45264992的博客

09-29

731

Spark实现单词计数(Java) 原理：将存储字符串的普通RDD通过flatMap按照空格分割成单个的单词存储在新的RDD中，再将此RDD转化成PairRDD,单词作为键，而值全部设置为1.最后将所有键值对的value加起来，得到的数就是单词数量。 JavaRDD<String> rdd = sc.parallelize(Arrays.asList("xiaobai is a big boss", "is it right", "sure you are right"));

java spark 单词统计_Spark单词统计笔记

weixin_32258919的博客

02-13

267

1.scSparkContext,Spark程序的入口点，封装了整个spark运行环境的信息。2.进入spark-shell$>spark-shell$scala>scAPI:SparkContextRDD:resilient distributed dataset,弹性分布式数据集。等价于集合。spark实现Wordcount//加载文本文件，以换行符方式切割文本。Array(hel...

参与评论您还未登录，请先登录后发表或查看评论

spark读取shp文件_Spark本地环境实现wordCount单词计数

weixin_39605706的博客

12-02

207

注：图片如果损坏，点击文章链接：https://www.toutiao.com/i6814778610788860424/编写类似MapReduce的案例-单词统计WordCount要统计的文件为Spark的README.md文件分析逻辑：1. 读取文件，单词之间用空格分割2. 将文件里单词分成一个一个单词3. 一个单词，计数为1，采用二元组计数word ->（word,1）4. 聚合统计每...

Spark实战：单词统计

叶为正的博客

02-19

3666

WordCount程序首先看来一个快速入门案例，单词计数这个需求就是类似于我们在学习MapReduce的时候写的案例需求这样的：读取文件中的所有内容，计算每个单词出现的次数这个需求就没什么好分析的了，咱们之前在学习MapReduce的已经分析过了，接下来就来看一下使用 Spark需要如何实现。 Scala代码开发这里先使用Scala开发，sdk版本为：scala-2.11.12 以下为配置scala sdk与scala开发目录的步骤：开发环境配置完毕最后需要添加Spark的maven依赖

Spark 统计单词个数（WordCount）

lyl15941617899的博客

12-05

5362

demo需求：统计每个单词出现的个数。统计文件 Spark.txt hello word hello spark hello hadoop 思路： textFile：读取文件 flatMap：将每行单词按空格分开 mapToPair：把每个单词后面加上一个数量组成 reduceByKey：将相同的单词后面数量相加 foreach：打印 import java.u...

Spark入门（三）--Spark经典的单词统计

weixin_34216107的博客

02-27

761

spark经典之单词统计准备数据既然要统计单词我们就需要一个包含一定数量的文本，我们这里选择了英文原著《GoneWithTheWind》（《飘》）的文本来做一个数据统计，看看文章中各个单词出现频次如何。为了便于大家下载文本。可以到GitHub上下载文本以及对应的代码。我将文本放在项目的目录下。首先我们要读取该文件，就要用到SparkContext中的textFile的方法，我们尝试先读取第...

在Spark-Shell中实现单词统计

小楼秋风

07-19

1228

单词文件word.txt，单词以tab分隔 java python hadoop scala mysql hdfs hdfs mapreduce yarn hadoop hadoop scala hive hive sqoop hbase kafka hadoop hbase hadoop hive flume redis redis java python scala sqoop spark spark scala zookeeper flume hadoop hdfs hive # 上传word

Spark学习笔记——龟速更新。。

5akura's Blog

01-13

2270

文章目录Spark学习笔记第一章、基本认识与快速上手1.1、认识Spark1.2、对比Hadoop1.3、Spark组成基本介绍1.4、快速上手之WorldCount实现1.4.1、方式一（Scala类似集合操作实现）1.4.2、方式二(MR思维实现)1.4.3、方式三(Spark实现)第二章、环境搭建2.1、Local模式2.1.1、SparkShell命令行执行2.1.2、spark-sublime提交任务2.1.3、提交任务的参数说明2.2、Standalone模式2.2.1、配置改动与启动2.2.2

小菜的Scala学习笔记，主要部分更新完成

5akura's Blog

01-13

1080

文章目录Scala简介快速入门之HelloWorldIDEA开发Scala工程创建Scala开发规范Scala基础语言学习Chap01.内容输出与文档查看Chap02.变量2.1 声明/定义2.2 val与var2.3 数据类型2.3.1Char类型使用注意2.3.2、Unit、Null和Nothing2.3.3、类型转换Chap03.运算符Chap04.流程控制Scala函数式编程学习Chap05.函数编程入门5.1、函数function 和方法method5.2、函数的定义5.3、函数的使用注意5.4

【进大厂必学】3W字180张图学习Linux基础总结

L的存在的博客

05-26

4422

就不多说这段时间干啥去了吧，期间和很多的同学聊了天，有的童鞋已经开始工作，聊了聊工作上的事儿。有的是今年即将毕业的童鞋，有着自己的小目标，有的想尝试互联网，所以现在基本上都快进行二轮的复习了，有的同学备战公务员，凭着年轻这股劲儿向往自己理想的生活状态，无论怎么样，长路漫漫，走一步，算一步，每一步都算数。今天分享的这篇文章是 Linux 相关的基础知识，深一点的内容基本上没有，不过对于刚需小伙伴来说，也就够了，有时间的话，最好按照这些命令去试一试，敲一敲，这样记忆更加深刻。老规矩，先看目录，文章比较长，建

新东方刘畅词汇精美笔记（彩色标注，可打印）

02-07

【新东方刘畅词汇精美笔记】是一份专为英语学习者设计的资料，采用彩色标注，包含图片，便于打印和复习。这份笔记旨在帮助学习者更有效地记忆词汇，特别是结合新东方赵丽词汇5500和8000进行学习，以在短时间内提升...

2022最新总结【Java岗面试核心笔记】速成版

SharingOfficer的博客

09-28

533

所有的面试题目都不是一成不变的，特别是像一线大厂，面试题只是给大家一个借鉴作用，最主要的是给自己增加知识的储备，有备无患。行业浮浮沉沉，希望能帮助大家提升面试复习效率找到一个更好的工作！

用Spark实现简单的单词统计

墨玉浮白的博客

04-18

1794

用Scala实现 RDD（可以简单理解为是一个list集合，里面放的就是读到的一行一行的数据）是spark中非常核心的内容，只有通过SparkContext才能创建出来RDD。 package com.husky.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object SparkWordCount { def main(args: Array[String]): Un

用spark实现单词统计

大数据

12-03

5832

import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /** * 用spark实现单词统计 */ object SparkWorkCount { def main(args: Array[String]): Unit = { /* 1.创建sparkC...

python哈姆雷特词频统计_Intellij idea配置Spark开发环境，统计哈姆雷特词频(2)

weixin_39524439的博客

11-25

107

idea 新建maven 项目输入maven坐标maven 坐标编辑maven文件Spark 体系中间层Spark，即核心模块Spark Core，必须在maven中引用。编译Spark还要声明java8编译工具。1.8org.apache.sparkspark-core_2.112.1.0maven-compiler-plugin${java.version}${java.version}ide...

【大数据开发 Spark】第二篇：搭建 Spark 开发环境、 Spark 实现 WordCount 单词统计

Zhou_LC的博客

05-28

802

文章目录1 版本说明2 IDEA 开发环境2.1 创建 Maven 工程2.2 配置 Scala 环境2.3 配置 Spark 环境3 Spark 实现 WordCount 单词统计 1 版本说明 Spark：3.0.0 JDK：1.8 Scala：2.12.11 2 IDEA 开发环境 2.1 创建 Maven 工程创建 Maven 聚合工程，方便之后学习 Spark 时，分模块创建多个子工程，更清晰。 2.2 配置 Scala 环境在项目结构中导入 Scala 开发包，可以在 IDEA 中在线下

java spark 单词统计_用Spark写一个简单的wordcount词频统计程序

weixin_39630637的博客

02-24

266

public class WordCountLocal {public static void main(String[] args) {SparkConf conf = new SparkConf().setAppName("WordCountLocal").setMaster("local[2]");JavaSparkContext sc = new JavaSparkContext(conf...

大数据实验——用Spark实现wordcount单词统计

Wynne的博客

11-04

1739

一、实验目的学会启用spark 将文本上传到hdfs上在scala模式下编写单词统计二、实验过程了解spark的构成 2、具体步骤 1、打开一个终端，启动hadoop hadoop@dblab-VirtualBox:/usr/local/hadoop/sbin$./start-all.sh 2、启动spark hadoop@dblab-V...

基于spark的单词计数统计

BigData

08-30

2585

单词计数：直接查看官网： http://spark.apache.org/examples.html 小案例，自己再次基础上进一步的实现，我用了两种语言实现主要文件： words.txt: hello me hello you hello her hello me hello you hello her hello me hello you hello her hell...

spark单词统计