Spark学习
文章平均质量分 92
11
ListenerDMT
大数据
展开
-
Spark---RDD序列化----宽窄依赖----RDD持久化----RDD广播变量
目录一、RDD序列化二、宽窄依赖1、RDD窄依赖2、RDD宽依赖三、RDD持久化1、大概解释图2、代码解决3、存储级别4、关于checkpoint检查点5、缓存和检查点的区别四、广播变量1、实现原理2、代码实现一、RDD序列化从计算的角度, 算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。那么在scala的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效...原创 2022-05-01 20:17:05 · 960 阅读 · 0 评论 -
由美团技术文章整理---spark性能优化高级篇--数据倾斜调优与shuffle调优
文章地址1:Spark性能优化指南——基础篇 - 美团技术团队文章地址2:Spark性能优化指南——高级篇 - 美团技术团队一、关于性能优化高级篇--数据倾斜调优1、数据倾斜整体概述(1)数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的原创 2022-04-28 11:39:21 · 959 阅读 · 0 评论 -
由美团技术文章整理---spark性能优化基础篇--开发调优与资源参数调优
文章地址1:Spark性能优化指南——基础篇 - 美团技术团队文章地址2:Spark性能优化指南——高级篇 - 美团技术团队一、关于性能优化基础篇--开发调优1、避免创建重复RDD(1)原理解释我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD;以此类推,循环往复,直到计算出最终我们需要的结果。在这个过...原创 2022-04-26 21:17:44 · 722 阅读 · 0 评论 -
RDD、DataFrame、DataSet互相转换+spark读取操作+sparkjoin选择策略
一、DataFrame是什么DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解Person类的内部结构。而右侧的DataFrame却提供了详细的结构信息,使得 Spark SQL 可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。原创 2022-04-20 19:00:37 · 2025 阅读 · 0 评论 -
RDD----RDD创建+RDD分区+RDD转换算子+RDD行动算子+实现wordc的11种方法
一、创建RDD1、从内存中创建package com.testimport org.apache.spark.{SparkConf, SparkContext}object Test { def main(args: Array[String]): Unit = { //准备环境 val conf = new SparkConf().setMaster("local[*]").setAppName("my app") val sc = new SparkCont原创 2022-04-18 15:56:45 · 2256 阅读 · 0 评论 -
spark使用IDEA实现算子
一、IDE安装Scala插件,并指定maven地址1、IDE安装Scala插件二、编辑我们的 pom.xml 文件内容如下:<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:sch.原创 2022-04-15 18:44:45 · 1978 阅读 · 0 评论 -
Spark基础+Scala环境搭建+ Spark源码编译部署+ Spark配置History Server +通过算子实现WC例子
一、Spark基础知识二、Scala环境搭建1、部署本地SCALA(1)官网下载2.12.15版本链接:Scala 2.12.15 | The Scala Programming Language(2)配置环境变量(3)cmd 检查一下本地 Scala部署完成2、部署服务器Scala(1)复制下载链接(2)使用wget命令下载[peizk@hadoop software]$ wget https://dow...原创 2022-04-09 18:54:52 · 2237 阅读 · 0 评论