Spark
文章平均质量分 94
m0_37914799
I believe i can fly, I can touch the sky.
展开
-
Spark Streaming状态管理函数(一)—updateStateByKey和mapWithState
状态管理函数 Spark Streaming中状态管理函数包括updateStateByKey和mapWithState,都是用来统计全局key的状态的变化的。它们以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加,在有新的数据信息进入或更新时。能够让用户保持想要的不论什么状。updateStateByKey updateStateByKey会统计全局的...原创 2018-12-02 11:39:06 · 1034 阅读 · 0 评论 -
Spark Streaming状态管理函数(二)—updateStateByKey的使用(scala版)
Spark Streaming状态管理函数updateStateByKey的实现(scala版)原创 2018-12-02 11:39:16 · 2460 阅读 · 0 评论 -
Spark Streaming状态管理函数(三)—MapWithState的使用(scala版)
Spark Streaming状态管理函数MapWithState的实现(scala版)原创 2018-12-02 11:39:45 · 4941 阅读 · 9 评论 -
Spark SQL基本操作以及函数的使用
引语: 本篇博客主要介绍了Spark SQL中的filter过滤数据、去重、集合等基本操作,以及一些常用日期函数,随机函数,字符串操作等函数的使用,并列编写了示例代码,同时还给出了代码当中用到的一些数据,放在最文章最后。SparkSQL简介 Spark SQL是Spark生态系统中非常重要的组件,其前身为Shark。Shark是Spark上的数据仓库,最初设计成与Hive兼容,但是该项目...原创 2018-12-01 00:58:10 · 2399 阅读 · 0 评论 -
Spark读取kafka数据的方式——Receiver和Direct
spark Streaming从kafka中读取数据的方式分为Receiver和Direct两种方式Receiver方式 Receiver是使用kafka的高层次Consumer API来实现的,Receiver从kafka中获取数据存储在Spark Executor的内存之中,当Spark Streaming启动job时,job会去处理那些数据。由于它是依靠底层来实现的,数据写在缓...原创 2018-12-03 23:59:57 · 966 阅读 · 0 评论 -
Spark Lineage(血统)
Lineage简介宽依赖 Narrow Dependencies窄依赖 Wide Dependencies容错原理原创 2018-12-14 20:57:50 · 6434 阅读 · 3 评论 -
Spark源码分析(一)—Spark集群启动流程
文章目录 当我们在Linux服务器上输入start-all的时候,Spark集群就被我们启动,紧接着就看到屏幕上打印了一行行的信息。那么start-all是怎么启动Spark集群的呢?在启动集群时又做了哪些事情呢?接下来这篇文章将结合源码的分析向大家详细展示Spark集群的启动流程。首先来看看调用spark-all脚本时,集群启动的主要流程吧。spark集群启动流程图如下:##启动流程...原创 2018-12-09 23:46:11 · 483 阅读 · 0 评论 -
Spark源码分析(二)—Spark提交任务流程及运行流程(spark-submit)
文章目录Spark提交任务常用参数Spark提交任务总流程流程描述运行spark-submit脚本Spark提交任务流程(调用Spark-submit脚本)Spark提交任务常用参数 Spark提交任务,使用的是spark-submit脚本进行任务提交的,同时在任务提交的时候还可以指定一些参数,如设置本地模式、集群模式、指定每个executor大小,所有executor总共的核子数等。Sp...原创 2018-12-10 23:57:35 · 497 阅读 · 0 评论