QUARTZ基于SPARK LAUNCHER 驱动SPARK离线作业

场景:不同业务下输出了若干Spark的离线任务,原有的方式我们是基于Linux的CRON任务来驱动,不好进行监管、日志不好收集、服务不集中、难于管理、不好配置、资源调度不灵活。SparkLauncher 提供了编程方式提交Spark应用的方式提交Spark应用程序,可以结合Springboot、Q...

2018-12-21 16:19:48

阅读数 313

评论数 0

Spark1.5.2写kafka数据到Elasticsearch入坑总结

概述:总结一下Spark1.5.2+Kafka 0.8+中使用Direct Approach(直接获取的方式)消费Kafka数据开发过程中遇到的各种问题和经验.整合Spring    Spark开发中引入Spring可以方便的管理配置信息,数据源等,借助于Scala的单例特性可以创建一个独立的加载...

2018-04-19 19:53:02

阅读数 595

评论数 0

Spark1.5.2日志配置&数据文件清理

本节讨论Spark Standalone Mode 模式下的日志配置及作用运行过程中的历史文件的清理,避免线上环境的不合理配置导致大量的遗留数据填满磁盘导致节点服务不可用的情况。日志文件Spark原生支持使用log4j配置文件,针对于Spark集群的log4j日志文件应该放置在SPARK_HOME...

2018-03-15 12:57:27

阅读数 688

评论数 0

记一次Phoenix写入优化

场景描述 现有大量CSV格式的数据记录存储在HDFS中,需要批量索引到Hbase以便于数据查询。限于Hbase的主键索引以及使用Hbase API的诸多不方便,最后采用了Phoenix+Hbase的技术架构。基于此方案数据的索引可通过Phoenix的SQL API、Spark RDD插件、以及P...

2018-01-21 20:23:05

阅读数 2631

评论数 0

Spark 架构-初识

前言:一直想总结关于Spark架构方面的知识,限于所学,到目前也只是浅尝辄止,一方面受限于自我架构意识的欠缺,其次受限于对Scala语言的理解,总之还在不断的探索,实践,和总结中. 本小结简单阐述下笔者现阶段对Spark 的了解,为后续进一步的深入学习做一些准备,而更多的是思想上的理解,而不是细节...

2017-04-03 15:01:19

阅读数 266

评论数 0

Spark + Kafka 集成 指南

最近在考虑Spark在消费Kafka 分区数据的过程中究竟反生了什么? 因为比较疑惑现有系统架构会不会遭遇这方面的瓶颈,遂决定去搞一把,一探究竟. 参考:Spark  API章节 http://spark.apache.org/docs/1.5.0/streaming-kafka-integra...

2017-03-19 13:44:54

阅读数 3951

评论数 0

Spark 基础学习笔记

2017-04-16 16:52:05

阅读数 183

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭