spark数据集操作

 

首先将一行映射为整数值,从而创建一个新的数据集。reduce在该数据集上调用以查找最大字数。

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => if (a > b) a else b)
res4: Long = 15

我们可以轻松调用其他地方声明的函数。我们将使用Math.max()函数使这段代码更容易理解:

scala> import java.lang.Math
import java.lang.Math

scala> textFile.map(line => line.split(" ").size).reduce((a, b) => Math.max(a, b))
res5: Int = 15

一种常见的数据流模式是MapReduce。Spark可以轻松实现MapReduce流程:

scala> val wordCounts = textFile.flatMap(line => line.split(" ")).groupByKey(identity).count()
wordCounts: org.apache.spark.sql.Dataset[(String, Long)] = [value: string, count(1): bigint]

在这里,调用flatMap将行数据集转换为单词数据集,然后组合groupByKeycount计算文件中的单词计数作为(字符串,长整数)对的数据集。要在我们的shell中收集单词count,我们可以调用collect

scala> wordCounts.collect()
res6: Array[(String, Int)] = Array((means,1), (under,2), (this,3), (Because,1), (Python,2), (agree,1), (cluster.,1), ...)

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Spark数据集Spark计算引擎的核心概念之一,它被称为弹性分布式数据集(Resilient Distributed Dataset,简称RDD)。RDD是一个可并行操作的、容错的、不可变的分布式数据集合,它可以在内存中进行高效的数据处理。 RDD具有以下特点: 1. 分布式:RDD可以在集群中的多个节点上进行分布式计算,以实现高性能和可扩展性。 2. 弹性:RDD具有容错性,即使在节点故障的情况下,也可以通过RDD的血统信息重新计算丢失的数据。 3. 不可变:RDD是不可变的,即RDD的数据不能被修改。如果需要对RDD进行转换或操作,会生成一个新的RDD。 4. 分区:RDD将数据划分为多个分区,每个分区可以在集群中的不同节点上进行并行计算。 5. 惰性计算:RDD采用惰性计算的方式,只有在需要输出结果时才会进行实际的计算。 通过对RDD的操作,可以实现各种数据处理和分析任务,例如过滤、映射、聚合等。Spark提供了丰富的RDD操作函数,如map、filter、reduce等,以及更高级的操作函数如join、groupByKey、sortBy等,可以方便地进行复杂的数据处理和分析。 下面是一个使用Spark RDD进行数据处理的示例: ```python # 导入SparkContext from pyspark import SparkContext # 创建SparkContext对象 sc = SparkContext("local", "RDD Example") # 创建一个RDD data = [1, 2, 3, 4, 5] rdd = sc.parallelize(data) # 对RDD进行转换操作 rdd2 = rdd.map(lambda x: x * 2) # 对RDD进行聚合操作 sum = rdd2.reduce(lambda x, y: x + y) # 输出结果 print("Sum:", sum) # 关闭SparkContext sc.stop() ``` 这个示例中,首先创建了一个包含整数的列表data,然后使用parallelize方法将其转换为一个RDD。接着使用map方法对RDD中的每个元素进行乘以2的操作,然后使用reduce方法对RDD中的所有元素进行求和。最后输出结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值