用scala写一个入门的单机版wordcount

最新推荐文章于 2024-04-02 21:42:15 发布

原创最新推荐文章于 2024-04-02 21:42:15 发布 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

本文详细介绍了如何使用Spark处理字符串列表，通过切分、映射、分组等步骤实现WordCount，最终得到每个单词出现的频率，并按频率降序排序。

1、这里准备一个字符串List作为输入数据源
val lines = List("hello tom hello jerry", "hello jerry", "hello kitty")

2、WordCount
2.1、将每一个字符串按照空格切分

lines.map(_.split(" "))
2.2、将切分后的数组取掉，直接将每一个单词放在外层的List中

lines.map(_.split(" ")).flatten

2.3、前面两个步骤可以合成一个步骤完成（2.1+2.2）

lines.flatMap(_.split(" "))

结果： List[String] = List(hello, tom, hello, jerry, hello, jerry, hello, kitty)

2.4、将每一个单词和“1”组成元组

.map((_, 1))

结果： List[(String, Int)] = List((hello,1), (tom,1), (hello,1), (jerry,1), (hello,1), (jerry,1), (hello,1), (kitty,1))

2.5、分组

.groupBy(_._1)

结果：scala.collection.immutable.Map[String,List[(String, Int)]] = Map(tom -> List((tom,1)), kitty -> List((kitty,1)), jerry -> List((jerry,1), (jerry,1)), hello -> List((hello,1), (hello,1), (hello,1), (hello,1)))

2.6、将Map中的value中的元组的size

方法一：.map(t => (t._1, t._2.size))

方法二：.mapValues(_.foldLeft(0)(_+_._2))

2.7、排序

.toList.sortBy(_._2).reverse

可以用一步完成：

方法一：lines.flatMap(_.split(" ")).map((_, 1)).groupBy(_._1).map(t => (t._1, t._2.size)).toList.sortBy(_._2).reverse

方法二：lines.flatMap(_.split(" ")).map((_, 1)).groupBy(_._1).mapValues(_.foldLeft(0)(_+_._2))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sifan_weixin

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【大数据入门核心技术-Flink】（六）Flink版本WordCount-Scala版本

09-15

337

2、核心java代码。Flink支持多种安装模式- Local—本地单机模式，学习测试时使用- Standalone—独立集群模式，Flink自带集群，开发测试环境使用- StandaloneHA—独立集群高可用模式，Flink自带集群，开发测试环境使用- Flink On Yarn—计算资源统一由Hadoop YARN管理，生产环境使用本文主要演示Flink On Yarn模式的安装部署。

Spark入门指南：大数据处理的第一个Hello World程序

最新发布

AI天才研究院

05-10

1192

随着数据量呈指数级增长，传统单机数据处理技术已无法满足需求。Apache Spark作为当前最主流的大数据处理框架，凭借其“快如闪电”的计算速度（基于内存计算）和“简单易用”的API设计，成为企业级大数据平台的核心工具。本文的目标是通过一个经典的“Hello World”程序（即WordCount词频统计），引导读者完成从环境搭建到程序运行的全流程，并深入理解Spark的核心机制。Spark的核心概念与架构分布式计算的基础逻辑PySpark环境搭建与配置。

参与评论您还未登录，请先登录后发表或查看评论

scala写的第一个wordcount例子

03-21

自己学习scala语言写的一个单词计数的例子，很好的用到了函数式编程思想，分享给大家共同学习。

用Scala书写一个简单的单机WordCount程序

chengyanre2017的博客

04-03

257

WordCount程序主要是统计单词出现次数的程序，本例中将给出一个简单的本地单机WorldCount程序。说明：首先建立一个文本文件，在文本文件中写入若干单词，每个单词占一行，程序每读一行即读入一个单词，然后对相同的单词进行分组并统计。设在G盘根目录下建立个words文件，里面写入：...

用scala写一个wordcount程序

qq_24990561的博客

12-22

795

在终端目录/Users/liujingmao/Downloads创建一个文件scala_wordcount，文件包含以下words hello word hello word you and me you and me hello word cat dog cat dog and me you and his miss 在idea中创建一个scala_project,并创建一个Wor...

用Scala实现WordCount

qq_38482061的博客

04-22

475

import scala.io.Source object test { def main(args: Array[String]): Unit = { // Hello Scala // Hello Spark // Hello Hadoop // TODO 1. 读取文件 val list: List[String] = Source.fromFile("input/...

使用 scala 实现单机版 WordCount

jiaotongqu6470的博客

10-31

434

1、定义一个list,这个list里面模拟一行一行的文本数据val lines = List("hello aa bb cc ", "hello dd ee ff aa ", "hello kk hh jj")2、用map函数对lines按照空格进行切割val lineword = lines.map(_.split(" "))3、用flatten函数对lineword进行“压平”val words

scala编程基础

04-09

可以尝试使用Actor并发编程来实现一个简单的单机版WordCount应用，该应用将多个文件作为输入，然后计算并汇总结果。以上内容涵盖了Scala Actor并发编程的基础知识以及一些实际应用场景。通过理解和掌握这些知识点...

Scala入门第八篇--Scala Actor并发编程

weixin_42229056的博客

10-16

554

本次主要介绍Scala Actor并发编程的基本概念和入门下案例基本概念 Scala中的Actor能够实现并行编程的强大功能，它是基于事件模型的并发机制，Scala是运用消息的发送、接收来实现高并发的。 Actor可以看作是一个个独立的实体，他们之间是毫无关联的。但是，他们可以通过消息来通信。一个Actor收到其他Actor的信息后，它可以根据需要作出各种相应。消息的类型可以是任意的，消息的内...

Flink保姆级教程,超详细,教学集成多个第三方工具(从入门到精通)

热门推荐

Oz_Mood的博客

04-02

1万+

Flink 允许你通过实现接口来创建自定义数据源。// 定义一个自定义数据源Thread.sleep(1000) // 模拟数据生成延迟// 创建执行环境// 添加自定义数据源// 打印数据流// 启动 Flink 作业以上示例展示了如何在 Scala 中使用 Flink DataStream API 来从不同的数据源获取数据。每个示例都包含了创建数据流的代码和对数据流进行操作的注释。这些示例可以作为构建更复杂 Flink 流处理作业的起点。

scala详细介绍_word_带索引_非扫描版

02-22

scala 详细介绍 word 带索引非扫描版

Scala 的wordCount

hujieliang123的博客

03-05

2177

Scala 的wordCount

wordCount scala

猪坚强-历经磨难亦不忘初心

02-02

431

用scala写的wordCount import org.apache.spark.{SparkConf, SparkContext} import org.apache.log4j.{Level, Logger} object wordCount { Logger.getLogger("org").setLevel(Level.ERROR) def main(args: Array...

Scala集合实现WordCount代码实现

学亮编程手记

04-17

851

实现思路分析代码实现 package com.zxl.chapter10 /** * 使用scala集合实现WordCount */ object Scala09_WordCount { def main(args: Array[String]): Unit = { val list: List[(String, Int)] = List(("Hello Scala Wo...

Scala -WordCount详解

魚

05-03

1511

Map的底层机制: 把所有字母都弄成大写 Map映射操作： Unit的含义 FlatMap 集合的扁平化

Scala 学习（六）--- 单机实现wordcount详细解读

World_Programming的博客

04-26

838

object WordCount { def main(args: Array[String]): Unit = { val lines = List("hello tom hello jerry", "hello jerry", "hello kitty") val words = lines.flatMap(_.split(" ")) val wordAndOne =

Scala小案例WordCount,附上详细解释

Jamie's Blogs

09-05

386

object ScalaTest { def main(args: Array[String]): Unit = { // 定义一个数组 val list = Array("huang hua jie xu jing min hua huang", "jing min wo xi huan ni wo shi huang hua jie") ...

scala版本的wordCount

彩虹的约定

07-29

492

object word_count { def main(args: Array[String]) { /* scala版wordCount */ val arr = Array(2, 3, 5, 4, 5, 2, 4, 3, 5, 2, 4, 4, 2) val map = wordCount(arr) for ((k, v) map) {

wordcount_scala版本

weixin_45536884的博客

12-05

320

wordcount_scala版本 object wordCount_scala { def main(args: Array[String]): Unit = { //读取文件数据存储在集合中 val line = List("hello tom hello jerry", "hello xiaobai hello") //将集合中的数据进行处理，获取集合中的每一条...

大数据离线数据处理入门

03-20

<think>好的，用户想了解大数据离线数据处理的基础知识和入门方法，特别是Hadoop和Spark的相关内容。首先，我需要明确离线数据处理的基本概念，以及Hadoop和Spark在其中的角色。根据引用[2]，大数据处理框架包括数据采集、存储、清洗、查询分析和可视化。离线处理属于批处理，通常处理历史数据，如日志分析、ETL作业，引用[4]提到Spark适用于大数据批处理，如日志处理和ETL。接下来，基础概念部分需要解释离线数据处理的定义、特点，以及Hadoop和Spark的组件。Hadoop的HDFS和MapReduce是核心，而Spark的RDD和内存计算更适合迭代任务。引用[3]和[5]强调了Java基础的重要性，特别是对于Hadoop开发，而Spark可以使用Scala或Python。在入门方法中，学习路径可能需要先掌握Java和Linux，然后学习Hadoop和Spark的架构。引用[3]提到Linux基本操作是必要的基础。实践部分应包括环境搭建，比如安装Hadoop和Spark，编写MapReduce作业，以及使用Spark进行数据处理。引用[4]中的Spark应用场景可以作为例子，比如使用Spark SQL进行查询。工具和框架方面，需要列出Hadoop生态系统组件如Hive、HBase，以及Spark的模块如Spark SQL和MLlib。引用[2]中的数据预处理和存储技术也需涵盖。最后，生成相关问题时要考虑用户可能的后续疑问，比如性能优化、与其他框架对比，以及实际应用案例。确保引用正确，例如引用[4]关于Spark的应用场景，引用[2]关于处理框架的结构。需要注意使用正确的LaTeX格式，如数学公式用$...$，独立公式用$$...$$，并检查中文表达的流畅性。</think>### 大数据离线数据处理入门指南 #### 一、基础概念 1. **离线数据处理** 指对非实时、大规模历史数据进行的批量处理，典型应用包括日志分析、数据仓库构建、ETL（提取、转换、加载）等。其核心特点是高吞吐量、高延迟（小时/天级）[^2]。 2. **Hadoop与Spark的定位** - **Hadoop**: 基于分布式文件系统（HDFS）和MapReduce计算模型，适合低成本、高可靠性的海量数据存储与批处理。 - **Spark**: 基于内存计算的分布式框架，支持批处理、流处理、机器学习等，性能优于MapReduce，适合迭代计算和交互式查询[^4]。 3. **核心组件** - **Hadoop生态**: - HDFS: 分布式文件存储系统 - MapReduce: 分布式计算框架 - Hive: 数据仓库工具（SQL接口） - HBase: 分布式NoSQL数据库 - **Spark生态**: - Spark Core: 基础计算引擎 - Spark SQL: 结构化数据处理 - Spark MLlib: 机器学习库 #### 二、入门方法 1. **学习路径** - **编程基础**: Java（Hadoop开发核心语言）或Python/Scala（Spark推荐语言）[^3][^5] - **Linux操作**: 掌握基本命令和Shell脚本（Hadoop/Spark部署依赖Linux环境） - **Hadoop入门**: - 理解HDFS架构（NameNode/DataNode） - 编写MapReduce程序（WordCount示例） - 使用Hive进行SQL化查询 - **Spark入门**: - 学习RDD（弹性分布式数据集）概念 - 掌握DataFrame API和Spark SQL - 实践批处理任务（如日志清洗） 2. **实践步骤** ```bash # Hadoop单机环境搭建示例 $ wget https://archive.apache.org/dist/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz $ tar -xzvf hadoop-3.3.6.tar.gz $ cd hadoop-3.3.6 $ ./bin/hadoop version ``` ```python # Spark批处理示例（Python版） from pyspark.sql import SparkSession spark = SparkSession.builder.appName("BatchDemo").getOrCreate() df = spark.read.csv("hdfs://path/to/input.csv") result = df.groupBy("category").count() result.write.parquet("hdfs://path/to/output") ``` #### 三、工具与框架对比 | 特性 | Hadoop MapReduce | Spark | |-------------------|---------------------------|--------------------------| | 计算模型 | 磁盘迭代 | 内存迭代 | | 延迟 | 高（分钟级） | 低（秒级） | | 适用场景 | 简单ETL、海量数据持久化 | 复杂ETL、机器学习、交互查询 | | 编程复杂度 | 高（需手动实现逻辑） | 低（高阶API支持） | #### 四、性能优化基础 1. **Hadoop调优**: - 调整HDFS块大小（默认128MB） - 优化MapReduce的Combiner和Partitioner - 使用压缩算法（Snappy/LZO）减少I/O开销 2. **Spark调优**: - 合理设置`spark.executor.memory`和并行度 - 利用缓存机制（`persist()`）减少重复计算 - 避免Shuffle操作（如用`reduceByKey`替代`groupByKey`） $$ \text{执行时间} \propto \frac{\text{数据量}}{\text{并行度} \times \text{单任务效率}} $$ #### 五、扩展学习资源 1. **官方文档**: - [Hadoop官方指南](https://hadoop.apache.org/docs/stable/) - [Spark编程指南](https://spark.apache.org/docs/latest/rdd-programming-guide.html) 2. **书籍推荐**: - 《Hadoop权威指南》 - 《Spark快速大数据分析》