数据开发
文章平均质量分 94
数据开发涉及的技术栈汇总
Resemble_
一只程序猿的奇思妙想
github: https://github.com/Resemble
展开
-
Spark storage 模块
问题探讨:Stage3 包含哪些 rdd?Stage3 含有 RDD_B 和 RDD_G。RDD_A 和 RDD_B 、RDD_F 和 RDD_G 之间是宽依赖(分区是一对多),其他都是窄依赖。下图截自 《Spark大数据商业实战三部曲_内核解密_商业案例_性能调优》的349/1147。数据运行:上游 stage 和下游 stage 间串行,stage 内数据 pipeline,不需要父RDD把Partition中所有的Records计算完毕才整体往后流动数据进行计算。...原创 2021-02-18 20:55:01 · 1420 阅读 · 2 评论 -
flink onTimer延迟数据处理
目录场景:onTimer 使用关键流程数据处理流程代码交互流程onTimer 延迟数据处理的优劣优点:缺点:onTimer 编码实践业务场景描述代码场景:某些特殊业务场景需要延迟数据处理,比如乱序数据。某些业务场景只需要保留最新数据,中间更新过程忽略不计,比如客服问卷最新状态。某些业务场景需要结合最近一段时间的数据进行处理,比如客服侧由于系统短时间单条数据更新多个字段,系统侧更新字段顺序错误,导致中间记录的 binlog 数据可能有误,需要结合一.原创 2020-11-09 09:55:55 · 3622 阅读 · 0 评论 -
Spark RDD详解
1.Spark 介绍:spark出现的主要原因多个 MapReduce 任务之间没有基于内存的数据共享方式, 只能通过磁盘来进行共享。这种方式明显比较低效。在 Spark 中, 计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。1.1 Spark核心组件spark的核心是Spark Core,其中上面的Spark Sql对接的是Hive等结构化查询,Spark Streaming是对接的流式计算,后面的那两个也是主要用在科原创 2020-10-10 20:08:47 · 4253 阅读 · 0 评论 -
Flink ProcessFunction onTimer 延迟处理数据
ProcessFunction和CoProcessFunction说明DataStream与KeyedStreamd都有Process方法,DataStream接收的是ProcessFunction,而KeyedStream接收的是KeyedProcessFunction(原本也支持ProcessFunction,现在已被废弃)0.AbstractRichFunction介绍1....转载 2020-04-06 20:48:22 · 7825 阅读 · 0 评论