spark
liuxiangke0210
这个作者很懒,什么都没留下…
展开
-
spark记录(18)SparkStreaming+kafka receiver和directed模式
一、receiver模式1 、receiver模式原理图2 receiver模式理解:在SparkStreaming程序运行起来后,Executor中会有receiver tasks接收kafka推送过来的数据。数据会被持久化,默认级别为MEMORY_AND_DISK_SER_2,这个级别也可以修改。receiver task对接收过来的数据进行存储和备份,这个过程会有节点之间的数...转载 2019-11-06 15:56:09 · 202 阅读 · 0 评论 -
spark记录(20)自定义累加器Accumulator
自定义累加器/** * 自定义累加器需要继承AccumulatorV2<IN,OUT>类 * 并且要指定要累加的类型 */public class MyAccumulator extends AccumulatorV2<MyKey,MyKey> implements Serializable { /** * 该累加状态是在Driver端初始...转载 2019-11-06 15:52:20 · 190 阅读 · 0 评论 -
sparkstreaming消费kafka数据,如果发生消息积压,如何处理?
1.首先是为什么会发生消息积压?原因在默认情况下,SparkStreaming 通过receivers(或者Direct方式)以生产者生产数据的速率接收数据。当Batch procecing time > batch interval 的时候,也就是每个批次数据处理的时间要比SparkStreaming批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开会出...转载 2019-11-02 22:02:08 · 2197 阅读 · 0 评论 -
Java Spark自定义累加器的实现
Spark自定义累加器需要实现AccumulatorParam!!!!!!需要注意的是 ,源码中给出也就是说两个方法的实现是不一样的。下面是我的实现TimeAccumulator.javaimport constant.Constants;import org.apache.spark.AccumulatorParam;import util.Strin...转载 2019-11-01 21:17:10 · 675 阅读 · 0 评论 -
Spark Streaming(三):DStream的transformation操作
收藏链接:https://www.jb51.net/article/163065.htm1、updateStateByKey 作用 可以让我们为每个key维护一份state,并持续不断的更新该state; 使用 1、首先,要定义一个state,可以是任意的数据类型; 2、其次,要定义state更新函数——指定一个函数如何使用之前state和新值来更新state;...转载 2019-11-01 20:36:14 · 439 阅读 · 0 评论 -
spark transformation算子
一、什么是RDD算子答:所谓RDD算子,就是RDD中定义的函数,可以对RDD中的元素进行转换和操作。二.算子的分类算子分为两类:转换算子(Transformation)和行动算子(Action)。转换算子(Transformation):操作时延迟计算的,也就是一个RDD转换为另外一个RDD不是马上执行的,需要等到行动算子(Action)执行的时候,才会真正触发。 行动算子...转载 2019-10-31 14:59:59 · 209 阅读 · 0 评论 -
大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】
spark_入门04学习笔记1、目标1、掌握sparkStreaming原理和架构2、掌握DStream常用的操作3、掌握sparkStreaming整合flume4、掌握sparkStreaming整合kafka (★★★★★)2、sparkStreaming概述2.1 sparkStreaming是什么Spark Streaming makes it easy to build...转载 2019-10-12 20:05:57 · 134 阅读 · 0 评论 -
Spark Streaming + Kafka集成指南
收藏链接:https://blog.51cto.com/14048416/2339917Spark Streaming + Kafka集成指南Kafka项目在版本0.8和0.10之间引入了一个新的消费者API,因此有两个独立的相应Spark Streaming包可用。请选择正确的包,请注意,0.8集成与后来的0.9和0.10代理兼容,但0.10集成与早期的代理不兼容。注意:从Spar...转载 2019-10-12 19:08:52 · 166 阅读 · 0 评论 -
spark消费kafka的两种方式
Spark-Streaming获取kafka数据的两种方式Receiver与Direct一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的(如果突然数据暴增,大量batch堆积,很容易出现内存溢出的问题),然后...转载 2019-10-12 18:55:50 · 1057 阅读 · 0 评论 -
hdp2.4集成spark2.X
Hdp2.4集成spark2集成步骤1. 从官网下载http://spark.apache.org/downloads.html 下载spark2.3 包 2. 把spark2.3包上传到需要安装的机器上。cd /usr/hdp/2.4.0.0-169 tar -zxvf spark-2.3.0-bin-hadoop2.7.tgzmv spark-2.3.0-bin-hadoop2.7 sp...原创 2018-06-11 16:07:26 · 1553 阅读 · 0 评论 -
spark核心技术原理透视一(Spark运行原理)
原文链接:http://www.raincent.com/content-85-11052-1.html在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。来源:加米谷大数据在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论...转载 2018-03-25 15:50:28 · 16121 阅读 · 3 评论 -
spark原理学习总结
Spark运行基本流程Spark运行基本流程参见下面示意图1.构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源;2.资源管理器分配Executor资源并启动StandaloneExecutorBackend,Execut...原创 2017-10-11 16:50:01 · 423 阅读 · 0 评论 -
spark 资源参数调优
原文链接:http://www.cnblogs.com/bonelee/p/6042267.html资源参数调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提升Spark作业的执行性能。以下参数就是Spark中主转载 2017-10-11 10:27:37 · 597 阅读 · 0 评论 -
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
原文链接:http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(Data Skew)什么是数据倾斜转载 2017-10-13 11:39:19 · 333 阅读 · 0 评论 -
Spark排错与优化
原文链接:http://blog.csdn.net/lsshlsw/article/details/49155087一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成spark ui,内存不足自然会OOM,可以在m转载 2017-10-13 11:37:46 · 336 阅读 · 0 评论 -
SparkStreaming之foreachRDD
原文链接: http://blog.csdn.net/legotime/article/details/51836039首先我们来对官网的描述了解一下。DStream中的foreachRDD是一个非常强大函数,它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数据,它们触发的实际操作是DStream转换。所以要掌握它,对它要有深入了解。下面有一些转载 2017-10-13 10:46:30 · 342 阅读 · 0 评论 -
[置顶] 倾情大奉送--Spark入门实战系列
原文链接:http://blog.csdn.net/yirenboy/article/details/47291765这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark转载 2017-03-02 14:05:30 · 306 阅读 · 0 评论 -
Making Apache Spark Easier to Use in Java with Java 8
原文链接:http://blog.cloudera.com/blog/2014/04/making-apache-spark-easier-to-use-in-java-with-java-8/Our thanks to Prashant Sharma and Matei Zaharia of Databricks for their permission to re-publish转载 2017-03-05 17:01:38 · 314 阅读 · 0 评论 -
spark-java8 实例
在github上有spark-java8 实例地址:https://github.com/ypriverol/spark-java8学些java8 Lambda Expressions 的可以参考下,同时自己也做下比较。原创 2017-03-05 17:34:02 · 2421 阅读 · 0 评论 -
Spark Streaming中的操作函数分析
原文链接:http://blog.csdn.net/dabokele/article/details/52602412 根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations转载 2017-03-07 10:58:44 · 256 阅读 · 0 评论 -
Spark性能优化指南——高级篇
原文链接:http://tech.meituan.com/spark-tuning-pro.html?utm_source=tuicool&utm_medium=referral前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。转载 2017-03-25 20:56:05 · 259 阅读 · 0 评论 -
Spark Streaming中的操作函数分析
原文链接:http://blog.csdn.net/dabokele/article/details/52602412根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operation转载 2017-09-18 19:57:15 · 324 阅读 · 0 评论 -
Spark-SQL之DataFrame操作大全
原文链接:http://blog.csdn.net/dabokele/article/details/52802150Spark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。 本文中的代码基于Spark-1.转载 2017-09-18 20:01:14 · 389 阅读 · 0 评论 -
Spark Streaming学习
原文链接:http://www.jianshu.com/p/a61732928945以下内容主要基于Spark2.1.0版本的Spark Streaming内容学习得到。还是先把Maven的依赖加入进去:https://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.10Ov转载 2017-09-18 20:06:33 · 458 阅读 · 0 评论 -
spark 任务运行原理
原文链接:http://www.cnblogs.com/bonelee/p/6042263.html调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置转载 2017-10-11 10:26:18 · 198 阅读 · 0 评论 -
Spark算子:RDD基本转换操作(2)–coalesce、repartition
原文链接:http://lxw1234.com/archives/2015/07/341.htmcoalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区,使用HashPartiti转载 2017-10-11 14:25:07 · 192 阅读 · 0 评论 -
Spark算子系列文章
原文链接:http://lxw1234.com/archives/2015/07/363.htmSpark算子:RDD基本转换操作(1)–map、flagMap、distinctSpark算子:RDD创建操作Spark算子:RDD基本转换操作(2)–coalesce、repartitionSpark算子:RDD基本转换操作(3)–randomSplit、转载 2017-10-11 14:35:20 · 216 阅读 · 0 评论 -
Spark On Yarn系列文章
原文链接:http://lxw1234.com/archives/2015/08/468.htmSpark On Yarn:提交Spark应用程序到Yarn在Yarn上运行spark-shell和spark-sql命令行SparkSQL On Yarn with Hive,操作和访问Hive表转载 2017-10-11 14:40:40 · 192 阅读 · 0 评论 -
Spark Streaming Custom Receivers
建立maven项目,引入jar包: org.apache.spark spark-streaming_2.10 1.5.1 provided 自定义接收器:package com.eastcom.test.first.stream;import java.io.InputStream;import java.util.Lis原创 2017-10-12 15:48:34 · 281 阅读 · 0 评论 -
java.lang.IllegalArgumentException: System memory 468189184 must be at least 4.718592E8
原文地址:http://blog.csdn.net/qingyang0320/article/details/50787550在Eclipse里开发Spark项目,尝试直接在spark里运行程序的时候,遇到下面这个报错:ERROR SparkContext: Error initializing SparkContext.Java.lang.IllegalArgum转载 2016-12-28 16:32:45 · 1151 阅读 · 0 评论