![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark Streaming
文章平均质量分 54
fengfengchen95
迷茫是因为有太多的时间去胡思乱想,唯独让自己充实,一直处于忙碌状态,就没有时间去迷茫
展开
-
Sparkstreaming-windows测试过程异常问题记录
1、异常问题记录:解决办法:去http://search.maven.org上下载对应的.jar,如下载:spark-streaming-kafka-0-8-assembly_2.11-2.4.5.jar放在site-page的目录下,我这边的路径为:/usr/lib/python2.7/site-packages/pyspark/jars,而我python安装路径:/usr/bin/...原创 2020-03-31 19:25:42 · 1558 阅读 · 0 评论 -
Spark Streaming 机制
本篇文章主要从二个方面展开:一、Exactly Once二、输出不重复事务:银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。从事务视角解密SparkStreaming架构:SparkStreaming应用程序启动,会分配资源,除非整个集群硬件资源奔溃,一般情况下都不会有问题。S...转载 2019-08-27 14:39:42 · 296 阅读 · 0 评论 -
apache commons常用工具类(转)
1.有些情况下,Arrays满足不到你对数组的操作?不要紧,ArrayUtils帮你ArrayUtilspublic class TestMain {public static void main(String[] args) {int[] nums1 = { 1, 2, 3, 4, 5, 6 };// 通过常量创建新数组int[] nums2 = Ar...转载 2019-04-09 10:12:14 · 621 阅读 · 0 评论 -
Spark如何处理数据倾斜(转)
什么是数据倾斜数据倾斜是指我们在并行进行数据处理的时候,由于数据Spark的单个Partition)的分布不均,导致大量的数据集中分不到一台或者某几台计算节点上,导致处理速度远低于平均计算速度,从而拖延导致整个计算过程过慢,影响整个计算性能数据倾斜的危害单个或者某几个task拖延整个任务运行时间,导致整体耗时过大单个task处理数据过多,很容易导致oomExecutor Kill lo...转载 2019-04-11 15:03:25 · 500 阅读 · 0 评论 -
Sparksteaming每批次中到底有多少个RDD
对DStream.foreachRDD的理解转载:https://blog.csdn.net/odailidong/article/details/78487803 最近在使用Spark Streaming过程中,对foreachRDD有点疑问,查阅资料后记录如下: foreachRDD(func)的官方解释为The most generic output opera...转载 2019-02-14 17:51:26 · 931 阅读 · 1 评论 -
(转)Flink Storm SparkSteaming各流计算框架对比
随着大数据时代的来临,大数据产品层出不穷。我们最近也对一款业内非常火的大数据产品 - Apache Flink做了调研,今天与大家分享一下。Apache Flink(以下简称flink) 是一个旨在提供‘一站式’ 的分布式开源数据处理框架。是不是听起来很像spark?没错,两者都希望提供一个统一功能的计算平台给用户。虽然目标非常类似,但是flink在实现上和spark存在着很大的区别,flink是...转载 2019-01-16 17:09:30 · 607 阅读 · 1 评论 -
转载:如何管理kafka偏移量(一)
转:https://cloud.tencent.com/developer/article/1122481 最近工作有点忙,所以更新文章频率低了点,在这里给大家说声抱歉,前面已经写过在spark streaming中管理offset,但当时只知道怎么用,并不是很了解为何要那样用,最近一段时间又抽空看了一个github开源程序自己管理offset的源码,基本已经理解透彻了,当然这里...转载 2019-01-08 09:33:31 · 1454 阅读 · 0 评论 -
Spark Streaming checkpoint概述
Spark Streaming揭秘checkpoint的使用https://www.cnblogs.com/jcchoiling/p/6513569.html今天谈下sparkstreaming中,另外一个至关重要的内容Checkpoint。首先,我们会看下checkpoint的使用。另外,会看下在应用程序重新启动时,是如何处理checkpoint的。Checkpoint保存什...转载 2019-01-17 18:12:52 · 172 阅读 · 0 评论 -
SparkSteaming程序异常问题排查步骤
SparkSteaming程序异常问题排查步骤程序运行环境:Spark on yarn cluster环境异常问题排查步骤:1.首先在yarn页面查看程序的运行情况,点击running页面查看程序是否掉线。2.不掉线的情况,点击上图的 Tracking UI对应的:ApplicationMaster进入任务详细信息页面 ,查看jobs 和Streaming页面查看是否正常。...原创 2018-11-29 10:47:10 · 477 阅读 · 0 评论 -
(转)SparkSteaming使用checkPoint的优缺点
(转载)https://blog.csdn.net/u010454030/article/details/54985740 框架版本spark2.1.0kafka0.9.0.0当使用sparkstreaming处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。 当他们集成的时候我们需要重点考虑就是如果程序发生故障,或者升级重启,或者集群宕机,它究竟...转载 2018-11-26 09:33:56 · 686 阅读 · 0 评论 -
Spark Streaming核心概念二(DStreams)
一、DStreamsDStreams是最基础的抽象类在Spark Streaming,它代表持续不断的数据流,数据流要么来源于input 数据流,要么来源于一个DStreamsz进过转换后生成的另外一个DStreaming,实际上一个DStreams一系列的RDD.每一个RDD包含的数据是一个间隔内的数据(批次)对Dstreams操作算子,比如map/flatMap,其实底层都会被翻译为对DStr...原创 2018-05-25 20:22:54 · 403 阅读 · 0 评论 -
Spark Streaming核心概念一(StreamingContext)
一、StreamingContext初始化一个Spark Streaming程序时必须要创建StreamingContext作为程序的入口。example:import org.apache.spark._import org.apache.spark.streaming._import org.apache.spark.streaming.StreamingContext._ // not ...原创 2018-05-25 19:58:03 · 873 阅读 · 0 评论 -
Spark Streaming概述(1)
一、Spark Streming 概述Spark Streming是一个可扩展、高可靠、容错的一个流处理框架二、Spark Streaming特点低延时、容错、能够运行到成白上千的节点上、能够将批处理、机器学习、图计算等子框架和Spark Streaming综合起来使用三、Spark Streaming处理流程将不同的数据源的数据经过Spark Streaming处理后将结果输出到外部文件系统,如...原创 2018-05-21 23:14:03 · 508 阅读 · 0 评论