你要用你的想象力,去想象他的运行机制和架构
数据放入了MySQL中
报错,connection可能已经失效了,将MySQL连接数据库代码重新打包上传到集群上运行
MySQL连接数据库代码,把代码导出到集群上去
再传下内容,运行下
思考点:有数据了,又有时间的间隔,Job产生要基于RDD. 有了RDD怎么表达业务逻辑?
SparkStreaming容错:
一、考虑Driver级别的容错:DAG的生成的模板,只要简单的做个checkpoint每个Job生成前后生成后都做一个,出错后恢复就好了.
二、考虑Executor级别的容错:
1.接收数据的安全性:默认方式是MemoryAndDisk的方式,WAL的方式,在数据接收之前,通过WAL机制做一个日志记录(不常用).生成环境下一般是和Kafka结合,Kafka支持业务的回溯
2.Job执行的容错完全靠RDD的容错。
备注:
这是我的Spark版本定制班学习笔记
更多私密内容,请关注微信公众号:DT_Spark
如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580
转载于:https://blog.51cto.com/11564520/1771193