
作者:沈午飞 目前就职于科技开发部创新中心 java和python编程技术方向 主要服务于数据中台。

金融行业作为典型的流式计算应用领域,涵盖了包括用户行为分析、实时营销、个性化推荐、实时风控、实时反欺诈等多个计算场景。以实时金融风控场景为例,需要流式计算系统实时分析海量的用户行为数据,根据既定的规则计算出相应的指标,并与风险模型进行匹配,第一时间判断风险等级、发现异常事件,并作出相应的风险控制措施,自动告警通知、改变业务流程。
目前
主流的流式计算框架有三种,分别是Storm,Spark Streaming,Flink。其中 Storm属于典型的流式处理,低延迟,高吞吐,且每条数据都会触发实时计算。spark属于批处理转化为流处理即将流式数据根据时间切分成小批次进行计算,对比与storm而言延迟会高于0.5s(秒级延迟),但是性能上的消耗低于storm。flink为流式计算而生属于每一条数据触发计算,在性能的消耗低于storm,吞吐量高于storm,延时低于storm,并且比storm更加易于编写。
Flink的架构图如下:
<

本文分享了基于Flink的实时数据仓库实践,探讨了金融行业的实时风控场景,比较了Storm、Spark Streaming和Flink的特性。Flink的架构包括JobManager和TaskManager,其任务提交和处理过程涉及Akka Framework。文章还介绍了Flink在YARN上的集群部署流程,并展示了Flink作业的开发和运行步骤。
最低0.47元/天 解锁文章
833

被折叠的 条评论
为什么被折叠?



