beam
李孟聊人工智能
独立开源软件开发者,SolidUI作者。老程序员,老扑街作者,依然奋战在开源一线,依然继续写文章。
展开
-
GitChat文章-Apache Beam 大数据处理一站式分析
随着大数据 2.0 时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌现出诸多大数据应用组件,如 HBase、Hive、Kafka、Spark、Flink 等。开发者经常要用到不同的技术、框架、API、开发语言和 SDK 来应对复杂应用的开发,这大大增加了选择合适工具和框架的难度,开发者想要将所有的大数据组件熟练运用几乎是一项不可能完成的任务。面对这...原创 2019-10-22 17:28:15 · 484 阅读 · 0 评论 -
Beam-介绍
简介Beam提供了一套统一的API来处理两种数据处理模式(批和流),让我们只需要将注意力专注于在数据处理的算法上,而不用再花时间去对两种数据处理模式上的差异进行维护。Beam每6周更新一个小版本。编程模型第一层是现有各大数据处理平台(spark或者flink),在Beam中它们也被称为Runner。 第二层,是可移植的统一模型层,各个Runners将会依据中间抽象出来的这个模...原创 2019-07-16 18:08:10 · 4514 阅读 · 0 评论 -
Beam-链路顺序
简介这个的介绍在我的另一篇博文中(Beam-介绍),在此不在再赘述,最近碰到个有意思的事,聊聊beam的链路,简单来说自己操作的一些函数中间有些转换组件,注册在链路中,在此截了一张官网的图片。这是简单链路大概样子,各个函数串联在一起,当然了实际中不可能这样一帆风顺,肯定遇到很多种情况,我列下几种情况分享下。集合注册PipelineOptionsFactory.register...原创 2019-07-28 03:24:34 · 689 阅读 · 0 评论