spark
文章平均质量分 72
总会有天明
这个作者很懒,什么都没留下…
展开
-
spark-day04-依赖关系-持久化-分区器-数据结构
一:依赖关系1:依赖和血缘关系介绍rdd.todebugstring:打印血缘关系 rdd.dependencies:打印依赖关系2:保存血缘关系3:OneToOne依赖---窄依赖4:shuffle依赖--宽依赖 新的RDD的一个分区的数据依赖于旧的RDD多个分区的数据,这个依赖称之为shuffle依赖。5:窄依赖的任务6:宽依赖的任务7:任务分类1: 一个main方法里面可能有多...原创 2022-02-15 21:18:10 · 2538 阅读 · 0 评论 -
spark-day03-核心编程-RDD算子
一:RDD算子RDD算子也称为RDD方法,主要分为两类。转换算子和行动算子。二:RDD转换算子 根据数据处理方式的不同将算子整体上分为value类型、双value类型和key-value类型 2.1:map值转换package com.atguigu.bigdata.spark.rdd.operator.transformimport org.apache.spark.{SparkConf, SparkContext}import org.ap...原创 2022-02-15 13:30:34 · 1051 阅读 · 0 评论 -
spark-day02-核心编程-RDD
一:概念介绍spark是最基本的数据处理模型,最小的计算单元,易于后续的扩展。二:IO基本实现原理字节流: 字符流:三:RDD和IO之间的关系RDD数据只有在调用collect方法时,才会执行真正的业务逻辑操作。之前的封装全部都是功能的扩展。RDD是不保存数据的,但是IO可以临时保存一部分数据。四:spark特点RDD通过不同的分区进行分配给不同的Task弹性: 存储的弹性:内...原创 2022-02-08 13:32:52 · 987 阅读 · 0 评论 -
spark-day01-快速上手
1:spark是什么Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。2:spark和Hadoop的区别-使用场景Hadoop:一次性数据计算,框架在处理数据的时候,会从存储设备中读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中。spark:spark和Hadoop的根本差异是多个作业之间的数据通信问题:spark多个作业之间数据通信是基于内存,而Hadoop是基于磁盘的3:spark核心模块spark core:spark最基础与最核心的功能...原创 2022-01-17 21:35:36 · 1408 阅读 · 0 评论