引言
随着数字化、信息化时代的发展,以数字驱动为特征、数据资源为要素的数字经济正逐渐影响我们的工作与生活。对于企业来说,数字化同样是不可错失的大机遇。而大数据技术正在这场数字化时代发展中承当重要责任。提到大数据,就不得不说我们熟知的 Apache 软件基金会。今年,由其主办的开源界年度盛会 - ApacheCon Asia将在8月6日开始。如果您关注大数据,那这场峰会值得您参与。
ApacheCon Asia
ApacheCon 可以说是开源界最早、面向全球开发者的大型技术交流盛会之一。自1998年至今,大会已经吸引了超过 350 个技术项目和不同社区参与其中。
今年,ApacheCon 首次来到亚洲(往届都在海外举行)。为了让更多感兴趣的人参与进来,ApacheCon 将以亚太时区为主,通过线上的方式举行。

时间:8月6日 - 8月8日
活动官网:
https://www.apachecon.com/acasia2021/
报名链接:
https://hopin.com/events/apachecon-asia-2021
大数据论坛
大数据是本次大会14个重大主题之一。大会3天,大数据论坛也将持续3天,由此可见其重要性。在此次大会中,Arrow、Atlas、Bigtop、CarbonData、Cassandra、DolphinScheduler、Doris(孵化中)、Druid、Flink、Hadoop、HBase、Hive、HUDI、Impla、Kylin、Kyuubi(孵化中)、Liminal(孵化中)、Nemo、Pinot、Pulsar、Spark、YuniKorn(孵化中)等Apache顶级项目或正在孵化中的项目;以及现下较为火热的 Milvus、openLooKeng 等开源项目均会在大会上展示。大数据技术前沿趋势与来自一线用户的实践经验、原理、架构分析等精彩内容,3天盛会,相信您一定有所收获。
出品人

主持人

在上一期的推文中,我们了解了 ApacheCon Asia-大数据专场的第一天的大咖们,这里就不在赘述,有兴趣的朋友可以点此大数据大咖预告第一波回顾。本期,我们来讲讲大数据专场第二天的精彩亮点。
ApacheCon Asia 2021
大数据大咖预告第二波
2021年8月7日
由CASSANDRA驱动的工作流程实现了大规模的自动化
8月7日 13:30
分享嘉宾:Maciej Swiderski
议题介绍:
在本演讲中,您将看到Apache Cassandra的实际应用,它能够大规模地运行基于工作流的业务逻辑–从传统的服务,到以无服务器方式运行的功能和功能流,Apache Cassandra以最佳方式展示其功能。将工作流与Apache Cassandra结合起来,可以实现传统方法无法实现的各种用例,主要是受制于数据访问的挑战。
嘉宾介绍:

Maciej Swiderski
OpenEnterprise的一名独立软件工程师。自2007年以来,他在业务自动化和工作流程领域,从开发的角度和帮助采用业务自动化在不同的部门。在过去的几年里,他利用各种云原生解决方案,如Kubernetes、KNative,大规模地构建和运行工作流程。他对开放源码充满热情,并试图尽可能地推广它。他也是开源项目Automatiko的创建者,旨在建立基于工作流的服务和功能。
在APACHE DRUID中分析事务性数据
8月7日 13:30
分享嘉宾:Vijay Narayanan
议题介绍:
Apache druid是一个用于实时分析的平台。由于druid不支持行级更新,因此在druid中处理围绕一个恒定主键变化的事务性数据是具有挑战性的。本次会议将重点讨论如何在druid中处理这些数据,并使用druid对这些数据进行传统的OLAP分析和用户行为/漏斗分析。
嘉宾介绍:

Vijay Narayanan
Vijay在数据领域有大约15年以上的经验。Vijay目前是Imply(Imply为开源的druid提供商业企业支持)的一名现场工程师。在这个职位上,Vijay专注于帮助亚太地区的客户使用Imply平台(基于Apache druid)。在Imply之前,Vijay在cloudera工作了两年,帮助cloudera合作伙伴定位和使用cloudera平台。在Cloudera之前,Vijay在Informatica工作了10年,他是为Informatica云提供连接的团队的一员。
OMINIRUNTIME:一个简洁的大数据运行时框架
8月7日 14:10
分享嘉宾:张景芳
议题介绍:
当前主流数据分析引擎的数据处理过程中,不同的引擎均有自己的优化方式,这也造成当前烟囱式优化现状。基于此,我们发现并提供统一的解决方案:OmniRuntime;使得一处优化,多处计算引擎均能收益,如支撑openLooKeng、Spark、Hive等大数据引擎计算加速。本期讲座,我将分享OmniRuntime的关键技术与性能实践。
嘉宾介绍:

张景芳
openLooKeng Committer,拥有9年的大数据开发经验。曾负责海量存储主动化项目的设计和开发,深度参与OpenLooKeng计算引擎的内核设计和开发,涉及OmniRuntime的设计和开发。跨数据中心查询技术探索,以及数据传输优化工作。
基于 APACHE IMPALA & KUDU 打造的实时用户行为分析系统
8月7日 14:10
分享嘉宾:张倩琼
议题介绍:
SensorsData公司目前是中国最大的大数据平台和市场技术产品供应商之一。在Sensors Data,我们为超过1000家公司提供基于Impala和Kudu的先进用户行为分析解决方案。在神策提供的1000多个独立平台上,每天会接入超过2000亿的用户事件。在平台的发展过程中,我们获得了一些实践经验。
嘉宾介绍:

张倩琼
Sensorsdata的大数据架构师,在基础设施部门工作,负责开发分布式存储和计算系统。他在工作中对hadoop、kudu、impala、flink和其他Apache系统的系统优化有非常丰富的经验。
APACHE OZONE:用于分析工作负载的高性能对象库
8月7日 14:50
分享嘉宾:
Rakesh Radhakrishnan
Mukul Kumar Singh
议题介绍:
Apache Ozone是一个强大的、分布式的键值对象存储,用于Hadoop,具有分层结构和强大的一致性。它提供了对象存储的语义(像Amazon S3),可以处理数十亿的对象。本讲座将深入探讨Apache Ozone的架构,描述原子重命名和删除的实现,这大大提升了分析工作的性能。我们将通过性能基准测试结果,显示在各种分析工作负载中获得一致的性能提升。最后,我们还将谈论未来的路线图,以利用这种新的设计,通过避免全局锁来实现命名空间操作的高效锁管理。
嘉宾介绍:

Rakesh Radhakrishnan
Apache Hadoop、Apache ZooKeeper、Apache BookKeeper项目的Committer和PMC,主要关注开源大数据技术。Rakesh目前在Cloudera工作,并在Apache Ozone项目中积极贡献。他在大型分布式软件平台设计和开发方面有超过14年的经验。在加入Cloudera之前,他曾在英特尔公司担任大数据软件工程师。
演讲嘉宾:
Mukul Kumar Singh
Mukul毕业于卡内基梅隆大学,目前在Cloudera工作,领导存储团队从事Apache Ozone和Apache HDFS的工作。他在存储系统和文件系统方面已经工作了12年,扮演过各种角色,包括开源贡献者、Apache PMC成员、研究员和软件开发人员。他还曾在Nimble Storage和NetApp工作,并分别负责WAFL和CASL文件系统。
APACHE OZONE如何通过RAFT协议建立起高可用性
8月7日 14:50
分享嘉宾:
程力、Shashikant Banerjee、Nanda Kumar
议题介绍:
Apache Ozone是Hadoop的一个可扩展的、冗余的、分布式的对象存储,在2020年成为Apache顶级项目。S 作为Apache Ozone的早期采用者,腾讯大数据平台已经部署了一个超过1000个节点的Ozone集群作为大数据应用的后台存储。腾讯还利用Ozone作为一些私人数据仓库项目的主要存储解决方案。由于Ozone被大量使用,Ozone的高可用性被列为生产中支持的首要任务。本讲座中,您将了解Ozone是如何保持高可靠性,Ozone团队是如何优化其性能的。
嘉宾介绍:

程力
现任高级工程师,负责腾讯云COS的大数据存储。曾在AWS S3和华为存储团队工作。同时也活跃在开源社区。目前是Apache Ozone PMC和Hadoop Committer。

Shashikant Banerjee
软件工程专家,在设计和构建可扩展和高性能的分布式存储系统方面拥有8年以上的经验。目前是Apache Hadoop、Apache Ozone和Apache Ratis社区的提交者和PMC成员。
演讲嘉宾:
Nanda Kumar
软件工程专家,在设计和构建可扩展的分布式存储系统方面有9年以上的经验。目前是Apache Hadoop和Apache Ozone社区的提交者和PMC成员。
当APACHE ATLAS遇到APACHE FLINK
8月7日 15:30
分享嘉宾:
Josh Yeh、Yan Liu
议题介绍:
Apache Atlas已经成为元数据管理的明星项目之一,它可以处理从数据线到数据标签和术语。Apache Flink也已经成为了流处理的标准,虽然Apache Flink在大规模处理数据方面很强大,但追踪数据线成为了Apache Flink的一个问题。在这次会议上,我想分享最近社区在连接Apache Atlas和Apache Flink方面的进展,以及社区如何从跟踪Apache Flink应用的元数据中获益。
嘉宾介绍:

Josh Yeh
Cloudera软件工程师,目前正在研究使用Apache Flink和Apache Atlas的流式工作流治理。之前的项目包括在Cloudera多租户SAAS平台和企业内部产品Cloudera Data Science Workbench(CDSW)上开发机器学习操作(MLOPS),利用ML/DL/AI框架建立数据管道/工作负载自动化:keras, pytorch, tensorflow, CDSW Nvidia GPU支持,以及Cloudera Manager HDFS和Hive备份和灾难恢复(BDR)。

Yan Liu
在Cloudera做了5年的解决方案工程师,我帮助很多客户成功地将Apache项目应用到生产系统中。
在LINKEDIN和UBER使用APACHE PINOT进行大规模的实时分析
8月7日 15:30
分享嘉宾:
Siddharth Teotia、Yupeng Fu
议题介绍:
Apache Pinot(孵化中)是一个分布式列式OLAP引擎,可以实时摄取数据,并以低延迟和高吞吐量提供分析查询。自从Pinot进入Apache孵化期以来,在过去的几年里,它已经发展和成熟了。LinkedIn和Uber拥有最大的Pinot生产装置,我们利用Pinot作为离线(批处理)和实时数据的高速分析查询的事实解决方案。在这个联合演讲中,我们将深入探讨由LinkedIn和Uber贡献的一些主要功能。具体来说,我们将介绍以下功能,简要讨论设计和实现,遇到的挑战,以及它们如何在LinkedIn和Uber内部被大规模使用。
嘉宾介绍:

Siddharth Teotia
在LinkedIn的Pinot团队工作,该团队隶属于系统和基础设施组。在加入LinkedIn之前,他在Oracle的数据库内核组工作了3年半,负责存储、索引和内存列式查询处理。在Oracle之前,Siddharth在Dremio工作了2年,是建立分布式数据湖查询引擎的早期工程师之一。他也是Apache Pinot和Apache Arrow的PMC成员。

Yupeng Fu
Yupeng是Uber的员工工程师,他负责Uber的实时平台和基础设施,包括多个由Kafka/Flink/Pinot等开源技术驱动的关键任务服务。Yupeng是Apache Pinot的 committer.。
APACHE LIMINAL(孵化中)--研究机器学习管道
8月7日 16:10
分享嘉宾:
Aviem Zur、Assaf Pinhasi
议题介绍:
Apache Liminal(孵化中)–展示机器学习管道 Apache Liminal是一个面向数据工程师和科学家的端到端平台,允许他们以一种强大而灵活的方式建立、训练和部署机器学习模型。该平台为数据提取和特征工程提供抽象和声明能力,然后是模型训练和服务;使用标准工具和库(如Airflow、K8S、Spark、scikit-learn等)。Apache Liminal的目标是将机器学习过程操作化,允许数据科学家从一个成功的实验快速过渡到生产中的模型训练、验证、部署和推理的自动化管道,将他们从工程和非功能任务中解放出来,让他们专注于机器学习代码和工件。
嘉宾介绍:

Aviem Zur
数据技术负责人@ Natural Intelligence,Apache Liminal的PPMC成员,Apache Beam的PMC成员。专注于数据框架和平台以及开源软件。对质量工程、开放源码和 Magic: The Gathering 充满热情。

Assaf Pinhasi
技术领导,在建立大规模系统和团队方面有丰富经验,擅长大数据和机器学习。
DORIS的过去、现在和未来
8月7日 16:10
分享嘉宾:陈明雨
议题介绍:
在本次演讲中,我将为大家简要介绍什么是Doris,以及这个项目的发展历程。之后,我会重点介绍Doris在过去一年中开发的众多新的功能,包括于Flink和Iceberg的集成、数据更新和多租户等等。最后,我将介绍Doris当前正在进行的一些令人期待的工作和后续Doris社区的规划路线。
嘉宾介绍:

陈明雨
Apache Doris(Incubating)PPMC。
BIGTOP 3.0: 重塑社区驱动的HADOOP发布版
8月7日 16:50
分享嘉宾:
Kengo Seki、Masatake Iwasaki
议题介绍:
Apache Bigtop提供了领先的开源大数据组件的全面打包、测试和配置,包括但不限于Hadoop、HBase和Spark。虽然Hadoop生态系统为处理大数据提供了丰富的工具集,但它们之间的兼容性并不明确。本次讲座,我们将介绍Bigtop 3.0.0,它是基于Hadoop 3的第一个版本。支持的Linux发行版包括Ubuntu、Debian、CentOS和Fedora也被更新。我们还将讨论为什么产品之间的兼容性问题和依赖性冲突难以迁移,并提到生态系统中正在进行的努力。
嘉宾介绍:
演讲嘉宾:
Kengo Seki
Apache Bigtop的Committer和PMC主席。Apache Airflow和Apache Yetus的Committer和PMC成员。Apache Avro和Apache Thrift的Committer。
演讲嘉宾:
Masatake Iwasaki
Apache Hadoop和Apache Bigtop的Committer和PMC成员。
APACHE INLONG,一个一站式流数据集成解决方案
8月7日 16:50
分享嘉宾:
Goson Zhang、Leo Biao Liu
议题介绍:
在大数据场景下,从零开始构建一个完整的数据流服务平台是非常耗时的,而且很难提供快速、稳定的服务。Apache InLong是一个一站式的流数据集成解决方案,它提供了发布和订阅流数据的功能,基于这个系统,可以轻松构建基于流数据的分析和应用。
嘉宾介绍:

Goson Zhang
Apache InLong项目PPMC,在腾讯数据平台部的数据存储组工作。
演讲嘉宾:
Leo Biao Liu
在腾讯数据平台部的实时计算组工作。
报名方式
ApacheCon Asia 2021
8月6日-8日
扫描下方二维码或点击文末阅读原文
即可报名

https://www.apachecon.com/acasia2021/
欢迎扫码关注:
Apache Doris(incubating)官方公众号
相关链接:
Apache Doris官方网站:
http://doris.incubator.apache.org
Apache Doris Github:
https://github.com/apache/incubator-doris
Apache Doris 开发者邮件组:
dev@doris.apache.org
本文分享自微信公众号 - ApacheDoris(gh_80d448709a68)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。