技术创新,永远是企业进步和行业发展的内驱力!
在不断的思考和应用的过程中,未名企鹅努力透过科技的力量来助力传统行业的发展。未名企鹅决定开启新的极客栏目,很高兴有机会跟大家分享我们的科技观点。
今天我们邀请到的是未名企鹅的系统架构师Lee,来谈谈一个比较新的技术分布流处理架构Flink在流向处理中是如何应用的。
分布式计算框架Flink在流向处理中的应用
01
什么是分布式计算
分布式计算框架,与所有分布式系统一样,都为了解决单机的局限性问题,分布式计算框架可以将一个大的计算任务或者说数据的处理任务分发给多个计算机执行,最后再将结果进行汇总得到最终的计算结果。
而在未名企鹅提供的数据流向清洗服务里处理流向数据时,一次最少都是几十万数据,如果时间跨度增大,处理一年的数据,那数据量就可能会是几百万甚至千万级别,如果所有数据都在一台计算机负责计算,当然也可以,但是有可能需要30分钟甚至更长时间,而且还有可能因为单点故障导致计算任务失败。
通过使用分布式计算框架,就可以在5分钟、1分钟甚至近乎实时就完成计算任务,而且即使有个别计算机在计算的过程中出现故障也不会影响整体的计算结果。
当处理数据的速度提升上来后,就能更快的给客户呈现清洗之后的流向数据,在未名企鹅终端通产品里的数据大业务块能够更加实时的显示客户最新的数据情况,也能更快的为客户提供各种报表和数据分析的结果。
Flink,做为最近几年崛起很快的分布式计算框架,自然就成为我们首先考虑的