Spark
zzulikang
一个小菜鸡
展开
-
RDD行动算子
reduce函数说明:聚集RDD中所有元素,先聚合分区内数据,然后聚合分区间数据val reduceResult: Int = rdd.reduce(_+_)collect函数说明:以数组Array的形式返回数据集的所有元素rdd.collect().foreach(println)count返回RDD元素的个数val countResult: Long = rdd.count()first函数说明:返回RDD中的第一个元素take函数说明:返回一个由RDD的前n个元素组成的数原创 2020-07-04 00:57:08 · 669 阅读 · 1 评论 -
rdd案例:排行的top3计算
需求:统计出每一个省份每个广告被点击数量排行的Top3package com.baidu.exerimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.RDDobject Top3 { def main(args: Array[String]): Unit = { // 1516609143867 6 7 64 16 // 时间戳 省份 城市 用户 广告 val原创 2020-07-03 17:39:57 · 685 阅读 · 0 评论 -
Spark中RDD转换算子以及案例
1 Spark核心编程Spark计算框架为了能对数据进行高并发和搞吞吐的处理,封装了三大数据结构,分别是:RDD:弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量1.1 RDD代表是一个弹性的,不可变,可分区,里面的元素可并行计算的集合弹性:存储的弹性:内存与磁盘的自动切换容错的弹性:数据丢失可以自动修复计算的弹性:计算出错重试机制分片的弹性:可根据需要重新分片分布式: 数据存储在大数据集群不同节点上数据集: RDD封装了计算逻辑,并不保存数据数据抽象:原创 2020-07-03 15:29:17 · 685 阅读 · 0 评论 -
Spark中核心组件的基本知识
1 运行架构Spark框架的核心是一个计算引擎,采用标准的master-slave的结构,图中的Driver表示master,负责整个集群的作业任务调度,Executor则是slave,负责实际执行任务2 核心组件2.1 DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作简单理解就是Driver是驱使整个应用运行起来的程序2.2 Executor是工作节点中的JVM进程,负责具体任务,如果有Executor节点发生故障或者崩溃,会讲出错任务调度原创 2020-06-25 17:03:53 · 665 阅读 · 0 评论 -
Spark部署
1 Spark概述Spark是一种基于内存的快速,通用,可扩展的大数据分析计算引擎1.1 核心模块Spark Core:提供了Spark最基础与最核心的功能Spark SQL:是Spark用来操作结构化数据的组件。通过Spark SQL,用户可以使用SQL或者Apche Hive版本的HQL来查询数据Spark Streaming:Spark Streaming是Spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的APISpark MLlib:一个机器学习算法库。不仅原创 2020-06-25 10:57:11 · 213 阅读 · 0 评论 -
Scala知识点
变量和数据类型数据类型Scala是完全面向对象的语言,只有任意值对象(AnyVal)和任意引用对象(AnyRef)类型转换强制类型转换var a : Int = 10Var b : Byte = a.toByte流程控制for循环1, 基本语法object ScalaLoop { def main(args: Array[String]): Unit = { for ( i <- Range(1,5) ) { // 范围集合 p原创 2020-06-24 00:21:02 · 257 阅读 · 0 评论