用Scala书写一个简单的单机WordCount程序

最新推荐文章于 2021-10-12 10:04:58 发布

chengyanre2017

最新推荐文章于 2021-10-12 10:04:58 发布

阅读量212

点赞数

文章标签： scala 大数据数据库

原文链接：https://my.oschina.net/u/3801367/blog/1788974

版权

WordCount程序主要是统计单词出现次数的程序，本例中将给出一个简单的本地单机WorldCount程序。

说明：首先建立一个文本文件，在文本文件中写入若干单词，每个单词占一行，程序每读一行即读入一个单词，然后对相同的单词进行分组并统计。

设在G盘根目录下建立个words文件，里面写入：

hello
hadoop
hello
spark
hive
mysql
hadoop
hive
pig
mysql

保存退出。

程序：

import scala.io.Source
object WordCount {  
  def main(args: Array[String]): Unit = {
   val list = Source.fromFile("g:/words.txt").getLines().toList		//读取文件每一列并将其转换成List
                 .map { x=> (x,1) }						//将其转换为元组
                 .groupBy { x=> x._1 }					//按元组中的第一个元素归类
                 .mapValues{ list => list.map { tuple => tuple._2 }.reduce {(x,y) => x+y} }//统计
    println(list)
  }

结果：

Map(hadoop -> 2, spark -> 1, hive -> 2, mysql -> 2, hello -> 2, pig -> 1)

转载于:https://my.oschina.net/u/3801367/blog/1788974

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chengyanre2017

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大数据学习之路57-Scala学习前两天

爱米酱的博客

09-01

338

1.变量定义 val msg: String = "hello" val msg = "hello" 上面这两种定义方法是一样的，因为scala编译器可以自动推断类型。定义变量可以使用val也可以使用var，val关键字相当于java的final，一旦定义就不可更改。其实经过val修饰的变量已经不可以叫做变量了，它相当于经过final修饰的常量。我们如果想要定义可变的变量可以...

大数据入门没有头绪？这份总结的大数据学习路线希望你用得着

qq_43958467的博客

08-22

656

1、为什么要学习大数据？ 1.1，门槛它比 Java 高一点，因为除了对数据库的操作之外，要学习大数据生态的东西，需要会分布式、数仓、中间件等知识。它比机器学习低一些，不需要你会很多的机器学习算法和数学知识，而像机器学习算法和数学知识是需要长时间的磨练和沉淀，所以做这块的研究生和博士居多。无论是哪个学校的计算机专业，Java、数据、C、C++什么的都会接触到，但是大数据呢？第一...

参与评论您还未登录，请先登录后发表或查看评论

Scala编写WordCount程序

dengzhigang1998的博客

07-30

516

首先对于给定的一个List数组 val list = List("rose is beautiful","jennie is beautiful","lisa is beautiful","jisoo is beautiful") /** * 第一步，将list中的元素按照分隔符这里是空格拆分，然后展开 * 先map(_.split(" "))将每一个元素按照空格拆分 * 然后flatten展开 * flatmap即为上面两个步骤的整合 *

scala 编写wordCount

weixin_30588907的博客

03-06

116

加载文件 scala> var f1=sc.textFile("/tmp/dataTest/followers.txt") scala> f1.flatMap(x=>x.split("-")).map((_,1)).collect //每个数字以'-'分割，并数字为key，给每个key赋值1 res10: Array[(String, ...

用scala写一个入门的单机版wordcount

小凡

09-14

1740

1、这里准备一个字符串List作为输入数据源val lines = List("hello tom hello jerry", "hello jerry", "hello kitty") 2、WordCount 2.1、将每一个字符串按照空格切分 lines.map(_.split(" ")) 2.2、将切分后的数组取掉，直接将每一个单词放在外层的List中 lines.map(_.spli...

第三次作业-用scala写一个wordcount程序

qq_24990561的博客

12-15

291

第一：用scala写一个wordcount程序 ***package com.scala.wordcount object wordcountApp { def main(args: Array[String]): Unit = { //造一个List,模拟读取文件 val wordlist= List(&amp;amp;quot;hello scala&amp;amp;quot;,&amp;amp;quot;hello word&amp

Scala简单编程

weixin_34402408的博客

01-01

310

1. Scala简单概述Scala是多范式编程语言,其设计的初衷是要集成面向对象编程和函数式编程以及各种特性.需要说明的一点是: Scala是基于java平台(JVM) ,并兼容现有的Java程序下面是Scala官方网址http://www.scala-lang.org/ 2.Scala编译器安装安装JDK因为Scala是运行在JVM平台,所以这里...

Spark 算子

TT15751097576的博客

10-07

502

Spark大数据计算框架 Spark（火花）出现不全是代替Map Reduce，里面有批处理（Spark运行在内存中，Map Reduce运行在硬盘中，根据自身情况选择适应的开发环境（比如：机器的数量，配置，资金等等））了解Hadoop发展历史：2011年发布1.0版本，2012年发布稳定版，2013年发布2.X版本（里面出现了Yarn，得以重用） 2012年版本中 MR的缺点： mr基于数据集...

数据分析大数据面试题大杂烩02

GavinKai

03-09

2467

Map端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill(spill写入之前,会先进行二次排序,首先根据数据所属的partition进行排序,然后每个partition中的数据再按key来排序 . partition的目是将记录划分到不同的Reducer上去,以期望能够达到负载均衡,以后的Reducer就会根据partition来读取自己对应的数据 . 接着运行co

程序员编程笔记

weixin_40789007的博客

09-20

4757

1.查看电脑当前进程和端口cmd netstat -pid netstat -a 查看全部端口信息:netstat –ano 2.创建文件夹 mkdir 文件名或文件路径 3.删除文件夹 rmdir 4.删除文件 del 5.打开计算机calc 6.打开画图mspaint 7.用echo "写入新数据">d:\a.txt，echo 字符串 >文件路径文件名(会覆盖原内容) 8.用echo "写入新数据">>d:\a.txt，echo 字符串 >文件路径文件名.

linux下搭建scala环境并写个简单的scala程序

08-26

今天小编就为大家分享一篇关于linux下搭建scala环境并写个简单的scala程序，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

scala写的第一个wordcount例子

03-21

自己学习scala语言写的一个单词计数的例子，很好的用到了函数式编程思想，分享给大家共同学习。

Scala创建一个非常简单的Spark程序

春水初生，春林初盛，春风十里，不如随笔

01-03

500

请注意，应用程序应定义main()方法。该程序只计算包含'a'的行数和Spark README中包含'b'的数字。请注意，您需要将YOUR_SPARK_HOME替换为安装Spark的位置。与之前使用Spark shell（初始化自己的SparkSession）的示例不同，我们将SparkSession初始化为程序的一部分。我们调用SparkSession.builder构造[[SparkS...

简洁的scala(oop)

大怀特的博客

10-12

301

文章目录类this别名&自身类型scala中的泛开和泛型函数scala中泛型在Spark中应用scala中类型变量Bounds代码类型和多态基础什么是静态类型？它们为什么有用？Scala中的类型参数化多态性Scala有秩1多态性类型推断变性 Variance边界量化高级类型视界（“类型类”）其他类型限制使用视图进行泛型编程上下文边界和 implicitly[]高阶多态性类型和特设多态性F-界多态性结构类型抽象类型成员类型擦除和清单案例分析: Finagle模式匹配匹配值匹配类型匹配类成员运算符符

Scala程序

hxxjxw的博客

08-31

279

1、Hello World object HelloWorld{ def main(args: Array[String]):Unit={ println("Hello,World!") } } 2、if else语句 object Test { def main(args: Array[String]) { var x = 30; if( x == 10 ){ println("X 的值为 10"); }else ..

Scala编写WordCount

博客

09-27

1611

自己编写的拙劣的代码 object WordCount extends App { val file = Source.fromFile("D:/data.txt") var words: String = "" var wordArray = new ArrayBuffer[String]() //把行连成字符串 for (f &lt;- file.getLines()) { ...

Scala实现workcount

hiscoming的博客

05-26

283

Spark实现workcount// select split(sentence,' ') re // from tmp 1、使用scala实现wordCount scala> import scala.io.Source scala> val lines = Source.fromFile("/usr/local/src/badou_code/mr/mr_wc/The_Man_of_Property.txt").getLines lines: Iterator[String] = non-em

手写WordCount

汤小萌的博客

10-14

727

需求分析: 统计在文件中每一个字母出现的次数. 需要的jar包: 在安装包里面有对应的jar包: https://pan.baidu.com/s/1eFpKbExrpT7AcgQvpjvETQ hadoop-2.6.4\share\hadoop\hdfs\hadoop-hdfs-2.6.4.jar hadoop-2.6.4\share\hadoop\hdfs\lib\所有jar包 hadoop-2...

Scala环境下Spark WordCount程序实现

本文主要讲解了如何使用Scala设计一个简单的WordCount程序，这个程序通常用于统计文本中的单词频率，是大数据处理领域的基础示例。首先，我们需要准备合适的软件环境，包括安装和配置Hadoop、Spark以及Scala的相关...