Spark
我是星星我会发光i
路是一步一步走出来的,情是一点一点换回来的,人生也是这样一页一页真实翻过来的。
展开
-
Spark Troubleshooting(故障检查)
Spark Troubleshooting以下8种 1.控制reduce端缓冲大小以避免OOM 2.JVM GC导致的shuffle文件拉取失败 3.解决各种序列化导致的报错 4.解决算子函数返回NULL导致的问题 5.解决YARN-CLIENT模式导致的网卡流量激增问题 6.解决YARN-CLUSTER模式的JVM栈内存溢出无法执行问题 7.解决SparkSQL导致的JVM栈内存溢出 8.持久化与checkpoint的使用原创 2020-10-27 12:13:51 · 194 阅读 · 0 评论 -
Spark-数据倾斜及解决方案
Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。 例如,reduce点一共要处理100万条数据,第一个和第二个task分别被分配到了1万条数据,计算5分钟内完成,第三个task分配到了98万数据,此时第三个task可能需要10个小时完成,这使得整个Spark作业需要10个小时才能运行完成,这就是数据倾斜所带来的后果。原创 2020-10-27 11:33:54 · 717 阅读 · 0 评论 -
Spark-JVM调优
Spark之JVM调优原创 2020-10-27 10:17:18 · 163 阅读 · 0 评论 -
Spark-Suffle调优
Spark之Suffle调优原创 2020-10-27 09:53:15 · 531 阅读 · 0 评论 -
Spark算子调优
Spark之算子调优原创 2020-10-26 16:56:01 · 112 阅读 · 0 评论 -
Spark常规性能调优五:调节本地化等待时长
Spark常规性能调优五之调节本地化等待时长原创 2020-10-26 16:03:51 · 379 阅读 · 0 评论 -
Spark常规性能调优四:广播大变量-Kryo序列化
Spark常规性能调优四之广播大变量与Kryo序列化原创 2020-10-26 15:58:00 · 225 阅读 · 0 评论 -
Spark常规性能调优三:并行度调节
Spark常规性能调优三之并行度调节原创 2020-10-26 15:34:21 · 250 阅读 · 0 评论 -
Spark常规性能调优二:RDD优化
Spark常规性能调优二之RDD优化原创 2020-10-26 15:20:39 · 182 阅读 · 2 评论 -
Spark常规性能调优一:最优资源配置
Spark常规性能调优之最优资源配置:Spark性能调优第一步,就是为任务分配更多的资源,在一定的范围内,增加资源的分配与性能的提升是成正比的。原创 2020-10-26 14:37:38 · 354 阅读 · 0 评论 -
Spark Streaming-Dstream转换
DStream上的原语与RDD的类似,分为Transformations(转换)和Output Operations(输出)两种,此外转换操作中还有一些比较特殊的原语,如:updateStateByKey()、transform()以及各种Window相关的原语。 1.无状态转化操作 无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转化DStrea...原创 2019-11-21 16:22:11 · 8456 阅读 · 0 评论 -
Spark Streaming-Dstream创建
Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。每个接收器都以 Spark 执行器程序中一个长期运行的任务的形式运行,因此会占据分配给应用的 CPU 核心。此外,我们还需要有可用的 CPU 核心来处理数据。这...原创 2019-11-21 11:25:34 · 8660 阅读 · 0 评论 -
Spark Streaming-Dstream入门
1.Wordcount案例 (1)添加依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.11</artifactId> <version>2.1.1</version> &...原创 2019-11-21 10:05:09 · 8550 阅读 · 0 评论 -
Spark Streaming-概述
1.Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。 ...原创 2019-11-21 09:55:39 · 8456 阅读 · 0 评论 -
Spark SQL-数据源
一、通用加载/保存方法 1. 手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。 Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQ...原创 2019-11-21 08:38:04 · 8534 阅读 · 0 评论 -
Spark SQL-编程
1.SparkSession新的起点 在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。 SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和Hi...原创 2019-11-20 22:48:07 · 8470 阅读 · 0 评论 -
Spark SQL-概述
1.什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 对比Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以...原创 2019-11-20 21:39:01 · 10119 阅读 · 0 评论 -
SparkCore-RDD编程进阶
一、累加器 累加器用来对信息进行聚合,通常在向 Spark传递函数时,比如使用 map() 函数或者用 filter() 传条件时,可以使用驱动器程序中定义的变量,但是集群中运行的每个任务都会得到这些变量的一份新的副本,更新这些副本的值也不会影响驱动器中的对应变量。如果我们想实现所有分片处理时更新共享变量的功能,那么累加器可以实现我们想要的效果。 1.系统累加器 ...原创 2019-11-20 16:39:40 · 8448 阅读 · 0 评论 -
SparkCore-数据读取与保存
Spark的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。 文件格式分为:Text文件、Json文件、Csv文件、Sequence文件以及Object文件; 文件系统分为:本地文件系统、HDFS、HBASE以及数据库。 一、文件类数据读取与保存 1.Text文件 (1)数据读取:textFile(String) scala&...原创 2019-11-20 16:24:43 · 8452 阅读 · 0 评论 -
SparkCore-键值对RDD数据分区器
Spark目前支持Hash分区和Range分区,用户也可以自定义分区,Hash分区为当前的默认分区,Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shuffle过程属于哪个分区和Reduce的个数 注意: (1)只有Key-Value类型的RDD才有分区器的,非Key-Value类型的RDD分区器的值是None(2)每个RDD的分区ID范围:0~numPa...原创 2019-11-20 11:19:45 · 8425 阅读 · 0 评论 -
SparkCore-RDD编程
一、编程模型 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(...原创 2019-11-20 10:06:51 · 8461 阅读 · 0 评论 -
Spark基础解析
一、Spark概述 1.什么是Spark 1.1 定义 Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎 1.2 历史 2009年诞生于加州大学伯克利分校AMPLab,项目由Scala编写 2010年开源 2013年6月成为Apache的孵化项目 2014年2月成为Apache的顶级项目 2.Spark的内置模块 Spark Core:实现了...原创 2019-11-19 15:10:03 · 8386 阅读 · 0 评论 -
Spark中的算子
现在是2019年11月14日22点11分,刚看完尚硅谷老师spark的第二天视频,对于老师讲RDD中的算子特别感兴趣,于是写在这里记录一下 目录 一、value类型 1、转换数据结构,形成新的RDD(map) 2.改变数据结构,相当于数据的批处理(mapPartitions) 3.分片的索引值,找出数据及其所在分区(mapPartitionsWithIndex) 4.将每一个分区形成一...原创 2019-11-14 22:25:47 · 8866 阅读 · 0 评论