自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark Streaming:工作原理

Spark Streaming简介Spark Streaming是Spark Core API的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据,比如Kafka、Flume、Twitter、ZeroMQ、Kinesis或者是TCP Socket。并且能够使用类似高阶函数的复杂算法来进行数据处理,比如map、reduce、join和window。处理...

2019-02-26 11:26:35 1978

原创 Spark Streaming:DStream的transformationy及output操作

updateStateByKeyupdateStateByKey操作允许您在使用新的信息持续更新时保持任意状态public class UpdateStateByKeyWordCount { public static void main(String[] args) throws InterruptedException { SparkConf conf = new SparkCo...

2019-02-19 11:39:50 295

原创 Spark Streaming:输入DStream之Kafka数据源

基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。receiver从Kafka中获取的数据都是存储在Spark Executor的内存中的,然后Spark Streaming启动的job会去处理那些数据在默认的配置下,这种方式可能会因为底层的失败而丢失数据。如果要启用高可靠机制,让数据零丢失,就必须启用S...

2019-02-15 16:05:04 390

原创 Spark SQL:运行原理

Spark SQL的运行过程SQL在Spark执行要经历以下几步:用户提交SQL文本解析器将SQL文本解析成逻辑计划分析器结合Catalog对逻辑计划做进一步分析,验证表是否存在,操作是否支持等优化器对分析器分析的逻辑计划做进一步优化,如将过滤逻辑下推到子查询,查询改写,子查询共用等Planner再将优化后的逻辑计划根据预先设定的映射逻辑转换为物理执行计划物理执行计划做RDD计算...

2019-02-13 16:36:44 1793

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除