spark checkpoint详解 转载地址:https://www.cnblogs.com/superhedantou/p/9004820.htmlcheckpoint在spark中主要有两块应用:一块是在spark core中对RDD做checkpoint,可以切断做checkpoint RDD的依赖关系,将RDD数据保存到可靠存储(如HDFS)以便数据恢复;另外一块是应用在spark streaming中,使用checkp...
Spark Streaming-Checkpoint机制 转载地址:https://blog.csdn.net/anbang713/article/details/82047980一 概述每一个Spark Streaming应用,正常来说都是要7 * 24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。因此对实时计算应用的要求,应该是必须要能够对与应用程序逻辑无关的失败,进行容错。如果要实现这个目标,Spark Stre...
Java中PriorityQueue详解 转载地址:https://www.cnblogs.com/Elliott-Su-Faith-change-our-life/p/7472265.htmlJava API 地址:https://docs.oracle.com/javase/8/docs/api/Java中PriorityQueue通过二叉小顶堆实现,可以用一棵完全二叉树表示。本文从Queue接口函数出发,结合生动的图解,深入...
java.lang.Error: Properties init: Could not determine current working directory 报错:Java.lang.Error: Properties init: Could not determine current working directory.[root@localhost current]# hadoop fs -ls /shell-init: 获取当前目录时出错: getcwd: 无法访问父目录: 没有那个文件或目录chdir: 获取当前目录时出错: getc...
Hadoop启动的时候,发现Datanode启动不了,解决办法 转载地址:https://blog.csdn.net/cc1949/article/details/78467673 https://www.cnblogs.com/kxdblog/p/4034255.html解决方法:(1)现象:# jps看不到DataNode(2)可能原因:datanode的clusterID 和 namenod...
Hadoop启动的时候,发现Datanode启动不了,解决办法 转载地址:https://blog.csdn.net/cc1949/article/details/78467673 https://www.cnblogs.com/kxdblog/p/4034255.html解决方法:(1)现象:# jps看不到DataNode(2)可能原因:datanode的clusterID 和 namenod...
Spark 序列化问题全解 转载地址:https://blog.csdn.net/JIESA/article/details/79996053 https://blog.csdn.net/weixin_42653621/article/details/82534820在Spark应用开发中,很容易出现如下报错:org.apache.spark.SparkException: T...
Spark 使用sortByKey进行二次排序 转载地址:https://blog.csdn.net/dwb1015/article/details/52207945Spark的sortByKey API允许自定义排序规则,这样就可以进行自定义的二次排序、三次排序等等。 先来看一下sortByKey的源码实现:def sortByKey(): JavaPairRDD[K, V] = sortByKey(true)def sort...
kafka生产者与消费者相关命令行 原文:https://blog.csdn.net/wf3612581/article/details/818425741、开启zookeeper集群startzk.sh2、开启kafka集群start-kafka.sh3、开启kafka可视化界面 kafka-managerstart-kafka-manager.sh 4、生产者操作:kafka-conso...
Hadoop namenode重新格式化需注意问题 原文:https://blog.csdn.net/gis_101/article/details/528219461、重新格式化意味着集群的数据会被全部删除,格式化前需考虑数据备份或转移问题;2、先删除主节点(即namenode节点),Hadoop的临时存储目录tmp、namenode存储永久性元数据目录dfs/name、Hadoop系统日志文件目录log 中的内容 (注意是删除目录下的内容...
如何优雅的关闭基于yarn的SparkStreaming程序 转载地址:https://blog.csdn.net/c880420/article/details/80886699yarn application --listyarn application -kill application_1518954379926_0063
Storm的流分组策略 原文地址:https://www.cnblogs.com/cutd/p/6740179.html首先我要强调的是,Storm的分组策略对结果有着直接的影响,不同的分组的结果一定是不一样的。其次,不同的分组策略对资源的利用也是有着非常大的不同,本文主要讲一讲localOrShuffle这个分组对资源利用的重大改善。最后,不同的分组对项目的逻辑也起着至关重要的决定,比如在写数据的时候不同的分组策略...
Storm的流分组策略 原文地址:https://www.cnblogs.com/cutd/p/6740179.html首先我要强调的是,Storm的分组策略对结果有着直接的影响,不同的分组的结果一定是不一样的。其次,不同的分组策略对资源的利用也是有着非常大的不同,本文主要讲一讲localOrShuffle这个分组对资源利用的重大改善。最后,不同的分组对项目的逻辑也起着至关重要的决定,比如在写数据的时候不同的分组策略...
Spark之本地模式与集群模式 原文:https://blog.csdn.net/qq_33689414/article/details/802326051.spark-shell的本地模式和集群模式1.1 local本地模式直接启动spark-shell命令窗口脚本启动后,会生成一个SparkContext的上下文对象sc。并且启动的是本地模式(local)。如图:1.1.1 加载本地数据sc.t...
Linux下安装Scala Linux下安装Scala和Windows下安装类似,步骤如下: 首先访问下载链接:http://www.scala-lang.org/download/默认这里下载的是Windows版本,这时点击上面的All downloads进入所有的版本下载页面: 然后选择最新版本,Scala 2.11.8进入 进入后拉到页面下方,选择Mac OSX,Unix版本的二进制包...
关于storm中某一段时间内topN的计算入门 转载地址:https://www.cnblogs.com/zguood/p/4528195.html刚刚接触storm 对于滑动窗口的topN复杂模型有一些不理解,通过阅读其他的博客发现有两篇关于topN的非滑动窗口的介绍。然后转载过来。下面是第一种:Storm的另一种常见模式是对流式数据进行所谓“streaming top N”的计算,它的特点是持续的在内存中按照某个统计指标(如出现...
Hadoop API 使用介绍 转载地址:https://blog.csdn.net/wt346326775/article/details/53301117Hadoop API被分成(divide into)如下几种主要的包(package)org.apache.hadoop.conf 定义了系统参数的配置文件处理API。org.apache.hadoop.fs 定义了抽象的文件系统API...
深入理解Java并发之synchronized实现原理 转载地址:https://blog.csdn.net/javazejian/article/details/72828483关联文章:深入理解Java类型信息(Class对象)与反射机制深入理解Java枚举类型(enum)深入理解Java注解类型(@Annotation)深入理解Java类加载器(ClassLoader)深入理解Java并发之synchronized实现原理...
利用storm个性化存储hdfs(更改storm-hdfs插件源码) 转载地址:https://blog.csdn.net/weixin_40209426/article/details/81220313在项目过程中,有这样一个需求,需要用storm消费实时流日志,存储hdfs,如果伙伴们要是抱着自己开发存储的心态去做,可能会耗费一定的开发周期,比较不划算,因为官方做了一个storm-hdfs的开发包供storm使用者轻松开发storm程序存储hdfs,但是这个...
简单易接入的Zookeeper 转载地址:https://blog.csdn.net/xiangxizhishi/article/details/76563728 众所周知,分布式的系统协作服务很难有让人满意的产品。这些协作服务产品很容易陷入一些诸如竞争选择条件或者死锁的陷阱中。那Zookeeper又是怎么解决这个问题的呢? Zookeeper提供了一些简单的操作,使得分布式应用可以基于这些接口实现诸如同步、配置...