Spark应用——进行字数统计

最新推荐文章于 2023-04-26 14:50:33 发布

wangli0519

最新推荐文章于 2023-04-26 14:50:33 发布

阅读量2.7k

点赞数

分类专栏： Spark 文章标签： Spark 大数据

本文链接：https://blog.csdn.net/wangli0519/article/details/73526633

版权

本文通过Spark展示了如何分析非结构化文本数据，以统计莎士比亚全集中高频词。首先创建数据结构，然后对词进行处理，去除标点符号并统一大小写，再利用groupBy进行词频统计，最终展示出现次数最多的词。

摘要由CSDN通过智能技术生成

非结构性的文本数据在数据分析中越来越重要，Spark是分析这类型数据一个优秀的工具。这里我们构建一个简单的计数应用来统计莎士比亚全集中的高频词。该应用可以被扩展到更大规模的应用，例如统计维基百科中的高频词。

我们首先用python的元组列表和sqlContext.createDataFrame方法来构建数据结构，然后打印它的类型和架构。

wordsDF = sqlContext.createDataFrame([('cat',), ('elephant',), ('rat',), ('rat',), ('cat', )], ['word'])
wordsDF.show()
print type(wordsDF)
wordsDF.printSchema()

现在我们建立一个新的数据结构，为每个词加上‘s’，使之成为复数。

from pyspark.sql.functions import lit, concat
pluralDF = wordsDF.select(concat(wordsDF.word, lit('s')).alias('word'))
pluralDF.show()

我们使用测试代码看上述操作是否正确

from databricks_test_helper import Test
Test.assertEquals(pluralDF.first()[0], 'cats', 'incorrect result: you need to add an s')
Test.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wangli0519

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark详解二

lukabruce的博客

08-10

289

八、Spark 部署模式 1、Local本地模式：运行于本地 spark-shell --master local[2] （local[2]是说，执行Application需要用到CPU的2个核） 2、Standalone独立模式：Spark自带的一种集群模式 Spark自己管理集群资源，此时只需要将Hadoop的HDFS启动 Master节点有master,Slave节点上有worke...

深入浅出Spark实时处理（一） --- Spark Streaming

杨鑫newlife的专栏

12-19

923

一、Spark Streaming Spark Streaming 是核心Spark API的扩展，可以实现数据流的可伸缩，高吞吐量，容错流处理。可以接Kafka、Flume、Kinesis(亚马逊的流处理平台)，或者TCP sockets，并且可以使用复杂的高级函数（Map、Reduce、Join和Window）来处理数据。完成后可以讲数据发送到文件系统中、数据库、实时Dashboard。...

1 条评论您还未登录，请先登录后发表或查看评论

spark统计文件行数

风筝中有风

01-04

1万+

虽然接触大数据2年了，以前对spark使用都是和solr建索引任务，由于目前的工作很少涉及spark了，为了不遗忘，从头开始复习一下spark，不同的是这次记录下来，一来方便自己查阅，二来对于刚入门的同行也算个案例。PS.高手勿喷 1、spark读取文件，统计行数 Intellj idea 开发工具环境就不在介绍了，网上很多教程，唯一需要注意的是你的spark或者scala版本与本地一致即可。

编写spark WorkCount字数统计代码详解

keepon的博客

09-13

1118

1.maven配置没有设置default setting ，导致下载依赖包的时候变慢了。以下是设置方式，一劳永逸。 2.scala-maven-plugin作用 The scala-maven-plugin is used for compiling/testing/running/documenting scala code in maven. 常见的组件作用，可以参照https:...

使用Spark实现词频统计

最新发布

梁辰兴的博客

04-26

4754

执行命令：spark-submit --master spark://master:7077 --deploy-mode cluster --class net.army.rdd.WordCount --driver-memory 512m --executor-memory 1g --executor-cores 2 hdfs://master:9000/park/SparkRDDWordCount.jar。hdfs://master:9000/wc/input：单词数据的来源路径。

spark 统计汉字字数_分离汉字和英文字母，这是最简单的公式

weixin_35849711的博客

01-14

498

单元格A1值为：梦幻excel,要求把左边的汉字提取出来。利用原来学过的，我们可以用公式：=LenB(A1,SearchB("?",A1)-1)但，如果英文字符在前面(excel梦幻)，上面的公式思路就不能用了，这时我们可以用Len函数来完成：汉字在前面：=Left(A1,LenB(A1)-Len(A1))汉字在后面=Right(A1,LenB(A1)-Len(A1))附LEN函数语法和示例LEN...

spark 统计汉字字数_版面字数和实际字数一样吗

weixin_42342226的博客

01-14

243

版面字数和实际字数一样吗?不一样。版面字数，是排版时计算的字数，实际字数是在word中计算的字数，由于计算原则不同，得出了的结果也不同。即版面字数要比实际字数多。　　版面字数是一种计算新闻出版物排字数量的方法。以新闻出版物的每个版面实际可容纳字数为准，不剔除每个版面内的空白部分。图书总字数的计算方法，一律以该书的版面字数为准，即：总字数=每行字数×每面行数×总面数，一般接近于图书版权页“字数”项所...

代码+案例详解：使用Spark处理大数据最全指南（上）

大数据Spark教程详解

02-05

1151

spark介绍

UUSUU的博客

10-22

309

RDD是spark提供的核心,即弹性分布式数据集基本概念： Application：用户编写的Spark应用程序。 Driver：Spark中的Driver即运行上述Application的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中有SparkContext负责与ClusterManager通信，进行资源申...

短小精悍算例：Python和Spark实现字数统计(word count)

weixin_39464400的博客

04-22

889

如题，实现文本字数统计，文本在D盘，名称是testfileA.txt 文本内容如下：话不多说，上程序： from pyspark import SparkContext sc = SparkContext("local", "wordcount") text_file = sc.textFile("D:/Python_PathtestfileA.txt") ## \表示换行连接。(word...

字符串、字符长度计算

01-07

C 语言中，字符串实际上是使用字符 ‘\0’ 终止的一维字符数组。因此，一个字符串，包含了一个含’\0’字符。创建了一个 “Hell” 字符串。由于在数组的末尾存储了空字符，所以字符数组（字符串）的大小比单词 “Hell” 的字符数多一个。字符串(函数strlen来测试该字符串的长度) (1) 字符串“abc\n”：其中的’\n’为转义字符（换行符），计算字符串长度时只能计作一个字符同理 ‘\’（反斜杠）、’’’（单引号）、’”’（双引号）、’\0’，（字符串结束符）、’\061’（ASCII码值等于061的字符，也即数字字符’1’）字符长度：在字

Java实现Spark词配对Wordcount计数代码实现

05-24

使用Spark实现对一个文档中的每一行的单词进行词配对计数，要求去标点符号，将大写符号统一转化成为小写单词。

Spark 大数据中文分词统计（三） Scala语言实现分词统计

热门推荐

DumbbellYang的专栏

08-21

1万+

Java版的Spark大数据中文分词统计程序完成之后，又经过一周的努力，把Scala版的Spark 大数据中文分词统计程序也搞出来了，在此分享给各位想学习Spark的朋友。如下是程序最终运行的界面截图，和Java版差别不大：如下是Scala工程结构：当你在工程主类文件WordCounter.scala上单击右

spark2.1.0-在文本文件中统计出现关键字的次数

那些疯狂到以为自己能够改变世界的人，才能真正改变世界！

04-26

1731

package com.wangzs; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.api.java.function.Function;...

spark count统计元素个数

跟我一起去征服

05-03

9458

太简单了，直接上代码，不解析 public static void myCount(){ SparkConf conf=new SparkConf() .setMaster("local") .setAppName("myCount"); JavaSparkContext sc=new JavaSparkContext(

spark学习03之wordCount统计并排序(java)

夢の殇

10-27

1488

wordCount就是对一大堆单词进行个数统计，然后排序。从网上找篇英文文章放到本地文档。 pom.xml 4.0.0 com.fei word-count 0.0.1-SNAPSHOT UTF-8 junit junit 3.8.1 test

spark核心RDD的介绍和字数统计案例

技术成就梦想

02-08

536

RDD是spark的核心和重要组成，spark内部提供了丰富的算子供我们使用，节省了开发时间使得开发更为高效，从而让我们专注业务逻辑。因为spark丰富的算子使得它更适用于需要复杂计算的业务场景。这次将会分享一些关于RDD的概念和理论以及经典的字数统计案例 RDD 概念 RDD(Resilient Distributed Dateset)，弹性分布式数据集。 RDD的五大特...

pyspark系列--字符串函数

u010955999的博客

07-19

6633

字符串函数 1. 字符串拼接 2. 字符串格式化 3. 查找字符串位置 4. 字符串截取 5. 正则表达式 6. 正则表达式替换 7. 其他字符串函数 1. 字符串拼接 from pyspark.sql.functions import concat, concat_ws df = spark.createDataFrame([('abcd','123')], ['s', ...

数据分析EPHS(6)-使用Spark计算数列统计值

小小挖掘机

07-25

657

前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值，这次咱们使用Spark SQL来计算统计值。数据分析EPHS(4)-使用Excel和Pyt...

spark sql——7. hive on spark

03-16

Spark SQL是一个用于处理结构化数据的Spark模块，它提供了一个类似于SQL的查询语言，可以用于查询和分析数据。而Hive on Spark则是将Hive与Spark集成，使得Hive可以使用Spark作为其执行引擎，从而提高Hive的查询性能...