你要用你的想象力,去想象他的运行机制和架构

数据放入了MySQL中

wKioL1cu06LBtLmxAAGH7zQNozo688.png

报错,connection可能已经失效了,将MySQL连接数据库代码重新打包上传到集群上运行

wKioL1cu06_C65LKAADsoWAgf1A286.png

MySQL连接数据库代码,把代码导出到集群上去

wKiom1cu0uDCUtSOAAERElKR71w236.png


wKioL1cu08bhOhECAAKZDJwM4dg234.png


wKioL1cu08ixWCcuAABXcQEacw8626.png


wKioL1cu09GgVT0hAADimP4b0Zs119.png

再传下内容,运行下

wKioL1cu09fCGrZMAAFE4PjwySo182.png

wKiom1cu0w7wgOwAAAIk05yZBr4135.png


wKiom1cu0xzCiKIIAAIqKKriFV4432.png


wKiom1cu0zHirZpSAAHaAxztKGI802.png


wKiom1cu00zghmD0AAHd2EFxSMI605.png


wKioL1cu1D2xl66qAAJBH6YAlSg387.png


wKiom1cu02_hEgecAAIsrz6_NQE926.png


wKioL1cu1FKhY-2CAAHUPkb58t4890.png


wKiom1cu04GBjAYsAAIrq8m3O6o298.png


wKioL1cu1Gfg-5mbAAGw238K4lE000.png


wKioL1cu1HCiumS1AAHxbc_2xYU346.png

思考点:有数据了,又有时间的间隔,Job产生要基于RDD. 有了RDD怎么表达业务逻辑?

wKiom1cu05_wipKwAAE7KQd-yJc078.png


wKioL1cu1IHAB4PRAADZ7I9V0NY644.png


wKiom1cu062AttyqAAI7cnFjANU564.png


SparkStreaming容错:

一、考虑Driver级别的容错:DAG的生成的模板,只要简单的做个checkpoint每个Job生成前后生成后都做一个,出错后恢复就好了.

二、考虑Executor级别的容错:

1.接收数据的安全性:默认方式是MemoryAndDisk的方式,WAL的方式,在数据接收之前,通过WAL机制做一个日志记录(不常用).生成环境下一般是和Kafka结合,Kafka支持业务的回溯

2.Job执行的容错完全靠RDD的容错。


备注:

这是我的Spark版本定制班学习笔记

更多私密内容,请关注微信公众号:DT_Spark

如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580