大数据
文章平均质量分 84
cary_1991
这个作者很懒,什么都没留下…
展开
-
Spark RDD揭秘
详细解析SPARK内核揭秘原创 2016-04-07 09:52:04 · 1148 阅读 · 0 评论 -
SparkStreaming数据源Flume实际案例分享
本期内容: 1.Spark Streaming on polling from Flume实战 2.Spark Streaming on polling from Flume源码 FlumeConnection:分布式连接的Flume实体 I.实战 一.通过Spark Streaming主动从Flume这边获取数据,首先配置Flume-config配置文件 二.编写源代码Spar原创 2016-05-02 07:56:28 · 3245 阅读 · 0 评论 -
通过案例对SparkStreaming透彻理解三板斧之一
I.Spark Streaming另类在线实验 II.瞬间理解Spark Streaming本质 扩展Spark的内容来适合自己的业务模型,自己能够进行框架的维护,就好比你拿到一个开源源代码,即使你编译引用库,那么你后期的维护和后期的扩展都会受到极大的限制,如果你自己依据于Spark的源码进行改造,那么自己后期的维护和扩展都是依赖于自己的设计来适合公司的业务逻辑,从而方便维护和可扩展 Spa原创 2016-05-04 21:16:16 · 3821 阅读 · 0 评论 -
解密SparkStreaming运行机制和架构分析
解密Spark Streaming Job架构和运行机制 解密Spark Streaming容错架构和运行机制 作业的生成肯定是一个动态的生成 private[streaming] val graph: DStreamGraph = { if (isCheckpointPresent) { cp_.graph.se原创 2016-05-08 16:44:38 · 1892 阅读 · 0 评论 -
Spark Streaming事务处理彻底掌握
Exactly once 输出不重复 A.课程的目的:根据自己的业务需要,定制开发自己需要的Spark 版本,包括Spark Bug的修复,性能的改进,功能的扩展,总之适合自己公司的维护,便于简单易理解,易维护。 B.事务处理,比如银行转账,事务的输入和输出都应该保证事务一致 一方面处理能够处理,且只被处理一次,输出能够输出且只能输出一次 一原创 2016-05-08 17:15:06 · 937 阅读 · 0 评论