spark
up-dayday
这个作者很懒,什么都没留下…
展开
-
Spark分区器HashPartitioner和RangePartitioner代码详解
转载: https://www.iteblog.com/archives/1522.html 在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。 我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区...转载 2018-09-15 19:49:39 · 323 阅读 · 0 评论 -
Spark 资源调度及任务调度
1、 资源分配 通过SparkSubmit进行提交应用后,首先会创建Client将应用程序(字节码文件.class)包装成Driver,并将其注册到Master。Master收到Client的注册请求后将其加入待调度队列waitingDrivers,并等待分配执行资源。 1.1 Dirver调度(分配Driver执行容器,1个) Master中调度程序执...转载 2018-10-04 17:11:25 · 238 阅读 · 0 评论 -
Spark Streaming的Exactly-One的事务处理
输出不重复 事务 银行转帐为例,A用户转账给B用户,B用户可能收到多笔钱,如何保证事务的一致性,也就是说事务输出,能够输出且只会输出一次,即A只转一次,B只收一次。 从事务视角解密SparkStreaming架构: SparkStreaming应用程序启动,会分配资源,除非整个集群硬件资源崩溃,一般情况下都不会有问题。SparkStreaming程序分成两部分,一部分是Driver,另外...转载 2018-10-10 17:23:39 · 180 阅读 · 0 评论