Apache 首次亚洲虚拟技术峰会:大数据专场预告第2波-CSDN博客

本文链接：https://blog.csdn.net/ucanuup_/article/details/119142289

引言

随着数字化、信息化时代的发展，以数字驱动为特征、数据资源为要素的数字经济正逐渐影响我们的工作与生活。对于企业来说，数字化同样是不可错失的大机遇。而大数据技术正在这场数字化时代发展中承当重要责任。提到大数据，就不得不说我们熟知的 Apache 软件基金会。今年，由其主办的开源界年度盛会 - ApacheCon Asia将在8月6日开始。如果您关注大数据，那这场峰会值得您参与。

ApacheCon Asia

ApacheCon 可以说是开源界最早、面向全球开发者的大型技术交流盛会之一。自1998年至今，大会已经吸引了超过 350 个技术项目和不同社区参与其中。

今年，ApacheCon 首次来到亚洲（往届都在海外举行）。为了让更多感兴趣的人参与进来，ApacheCon 将以亚太时区为主，通过线上的方式举行。

时间：8月6日 - 8月8日

活动官网：

https://www.apachecon.com/acasia2021/

报名链接：

https://hopin.com/events/apachecon-asia-2021

大数据论坛

大数据是本次大会14个重大主题之一。大会3天，大数据论坛也将持续3天，由此可见其重要性。在此次大会中，Arrow、Atlas、Bigtop、CarbonData、Cassandra、DolphinScheduler、Doris(孵化中)、Druid、Flink、Hadoop、HBase、Hive、HUDI、Impla、Kylin、Kyuubi(孵化中)、Liminal(孵化中)、Nemo、Pinot、Pulsar、Spark、YuniKorn(孵化中)等Apache顶级项目或正在孵化中的项目；以及现下较为火热的 Milvus、openLooKeng 等开源项目均会在大会上展示。大数据技术前沿趋势与来自一线用户的实践经验、原理、架构分析等精彩内容，3天盛会，相信您一定有所收获。

出品人

主持人

在上一期的推文中，我们了解了 ApacheCon Asia-大数据专场的第一天的大咖们，这里就不在赘述，有兴趣的朋友可以点此大数据大咖预告第一波回顾。本期，我们来讲讲大数据专场第二天的精彩亮点。

ApacheCon Asia 2021

大数据大咖预告第二波

2021年8月7日

由CASSANDRA驱动的工作流程实现了大规模的自动化

8月7日 13:30

分享嘉宾：Maciej Swiderski

议题介绍:

在本演讲中，您将看到Apache Cassandra的实际应用，它能够大规模地运行基于工作流的业务逻辑–从传统的服务，到以无服务器方式运行的功能和功能流，Apache Cassandra以最佳方式展示其功能。将工作流与Apache Cassandra结合起来，可以实现传统方法无法实现的各种用例，主要是受制于数据访问的挑战。

嘉宾介绍:

Maciej Swiderski

OpenEnterprise的一名独立软件工程师。自2007年以来，他在业务自动化和工作流程领域，从开发的角度和帮助采用业务自动化在不同的部门。在过去的几年里，他利用各种云原生解决方案，如Kubernetes、KNative，大规模地构建和运行工作流程。他对开放源码充满热情，并试图尽可能地推广它。他也是开源项目Automatiko的创建者，旨在建立基于工作流的服务和功能。

在APACHE DRUID中分析事务性数据

8月7日 13:30

分享嘉宾：Vijay Narayanan

议题介绍:

Apache druid是一个用于实时分析的平台。由于druid不支持行级更新，因此在druid中处理围绕一个恒定主键变化的事务性数据是具有挑战性的。本次会议将重点讨论如何在druid中处理这些数据，并使用druid对这些数据进行传统的OLAP分析和用户行为/漏斗分析。

嘉宾介绍:

Vijay Narayanan

Vijay在数据领域有大约15年以上的经验。Vijay目前是Imply（Imply为开源的druid提供商业企业支持）的一名现场工程师。在这个职位上，Vijay专注于帮助亚太地区的客户使用Imply平台（基于Apache druid）。在Imply之前，Vijay在cloudera工作了两年，帮助cloudera合作伙伴定位和使用cloudera平台。在Cloudera之前，Vijay在Informatica工作了10年，他是为Informatica云提供连接的团队的一员。

OMINIRUNTIME：一个简洁的大数据运行时框架

8月7日 14:10

分享嘉宾：张景芳

议题介绍:

当前主流数据分析引擎的数据处理过程中，不同的引擎均有自己的优化方式，这也造成当前烟囱式优化现状。基于此，我们发现并提供统一的解决方案：OmniRuntime；使得一处优化，多处计算引擎均能收益，如支撑openLooKeng、Spark、Hive等大数据引擎计算加速。本期讲座，我将分享OmniRuntime的关键技术与性能实践。

嘉宾介绍:

张景芳

openLooKeng Committer，拥有9年的大数据开发经验。曾负责海量存储主动化项目的设计和开发，深度参与OpenLooKeng计算引擎的内核设计和开发，涉及OmniRuntime的设计和开发。跨数据中心查询技术探索，以及数据传输优化工作。

基于 APACHE IMPALA & KUDU 打造的实时用户行为分析系统

8月7日 14:10

分享嘉宾：张倩琼

议题介绍:

SensorsData公司目前是中国最大的大数据平台和市场技术产品供应商之一。在Sensors Data，我们为超过1000家公司提供基于Impala和Kudu的先进用户行为分析解决方案。在神策提供的1000多个独立平台上，每天会接入超过2000亿的用户事件。在平台的发展过程中，我们获得了一些实践经验。

嘉宾介绍:

张倩琼

Sensorsdata的大数据架构师，在基础设施部门工作，负责开发分布式存储和计算系统。他在工作中对hadoop、kudu、impala、flink和其他Apache系统的系统优化有非常丰富的经验。

APACHE OZONE：用于分析工作负载的高性能对象库

8月7日 14:50

分享嘉宾：

Rakesh Radhakrishnan

Mukul Kumar Singh

议题介绍:

Apache Ozone是一个强大的、分布式的键值对象存储，用于Hadoop，具有分层结构和强大的一致性。它提供了对象存储的语义（像Amazon S3），可以处理数十亿的对象。本讲座将深入探讨Apache Ozone的架构，描述原子重命名和删除的实现，这大大提升了分析工作的性能。我们将通过性能基准测试结果，显示在各种分析工作负载中获得一致的性能提升。最后，我们还将谈论未来的路线图，以利用这种新的设计，通过避免全局锁来实现命名空间操作的高效锁管理。

嘉宾介绍:

Rakesh Radhakrishnan

Apache Hadoop、Apache ZooKeeper、Apache BookKeeper项目的Committer和PMC，主要关注开源大数据技术。Rakesh目前在Cloudera工作，并在Apache Ozone项目中积极贡献。他在大型分布式软件平台设计和开发方面有超过14年的经验。在加入Cloudera之前，他曾在英特尔公司担任大数据软件工程师。

演讲嘉宾：

Mukul Kumar Singh

Mukul毕业于卡内基梅隆大学，目前在Cloudera工作，领导存储团队从事Apache Ozone和Apache HDFS的工作。他在存储系统和文件系统方面已经工作了12年，扮演过各种角色，包括开源贡献者、Apache PMC成员、研究员和软件开发人员。他还曾在Nimble Storage和NetApp工作，并分别负责WAFL和CASL文件系统。

APACHE OZONE如何通过RAFT协议建立起高可用性

8月7日 14:50

分享嘉宾：

程力、Shashikant Banerjee、Nanda Kumar

议题介绍:

Apache Ozone是Hadoop的一个可扩展的、冗余的、分布式的对象存储，在2020年成为Apache顶级项目。S 作为Apache Ozone的早期采用者，腾讯大数据平台已经部署了一个超过1000个节点的Ozone集群作为大数据应用的后台存储。腾讯还利用Ozone作为一些私人数据仓库项目的主要存储解决方案。由于Ozone被大量使用，Ozone的高可用性被列为生产中支持的首要任务。本讲座中，您将了解Ozone是如何保持高可靠性，Ozone团队是如何优化其性能的。

嘉宾介绍:

程力

现任高级工程师，负责腾讯云COS的大数据存储。曾在AWS S3和华为存储团队工作。同时也活跃在开源社区。目前是Apache Ozone PMC和Hadoop Committer。

Shashikant Banerjee

软件工程专家，在设计和构建可扩展和高性能的分布式存储系统方面拥有8年以上的经验。目前是Apache Hadoop、Apache Ozone和Apache Ratis社区的提交者和PMC成员。

演讲嘉宾：

Nanda Kumar

软件工程专家，在设计和构建可扩展的分布式存储系统方面有9年以上的经验。目前是Apache Hadoop和Apache Ozone社区的提交者和PMC成员。

当APACHE ATLAS遇到APACHE FLINK

8月7日 15:30

分享嘉宾：

Josh Yeh、Yan Liu

议题介绍:

Apache Atlas已经成为元数据管理的明星项目之一，它可以处理从数据线到数据标签和术语。Apache Flink也已经成为了流处理的标准，虽然Apache Flink在大规模处理数据方面很强大，但追踪数据线成为了Apache Flink的一个问题。在这次会议上，我想分享最近社区在连接Apache Atlas和Apache Flink方面的进展，以及社区如何从跟踪Apache Flink应用的元数据中获益。

嘉宾介绍:

Josh Yeh

Cloudera软件工程师，目前正在研究使用Apache Flink和Apache Atlas的流式工作流治理。之前的项目包括在Cloudera多租户SAAS平台和企业内部产品Cloudera Data Science Workbench（CDSW）上开发机器学习操作（MLOPS），利用ML/DL/AI框架建立数据管道/工作负载自动化：keras, pytorch, tensorflow, CDSW Nvidia GPU支持，以及Cloudera Manager HDFS和Hive备份和灾难恢复（BDR）。

Yan Liu

在Cloudera做了5年的解决方案工程师，我帮助很多客户成功地将Apache项目应用到生产系统中。

在LINKEDIN和UBER使用APACHE PINOT进行大规模的实时分析

8月7日 15:30

分享嘉宾：

Siddharth Teotia、Yupeng Fu

议题介绍:

Apache Pinot（孵化中）是一个分布式列式OLAP引擎，可以实时摄取数据，并以低延迟和高吞吐量提供分析查询。自从Pinot进入Apache孵化期以来，在过去的几年里，它已经发展和成熟了。LinkedIn和Uber拥有最大的Pinot生产装置，我们利用Pinot作为离线（批处理）和实时数据的高速分析查询的事实解决方案。在这个联合演讲中，我们将深入探讨由LinkedIn和Uber贡献的一些主要功能。具体来说，我们将介绍以下功能，简要讨论设计和实现，遇到的挑战，以及它们如何在LinkedIn和Uber内部被大规模使用。

嘉宾介绍:

Siddharth Teotia

在LinkedIn的Pinot团队工作，该团队隶属于系统和基础设施组。在加入LinkedIn之前，他在Oracle的数据库内核组工作了3年半，负责存储、索引和内存列式查询处理。在Oracle之前，Siddharth在Dremio工作了2年，是建立分布式数据湖查询引擎的早期工程师之一。他也是Apache Pinot和Apache Arrow的PMC成员。

Yupeng Fu

Yupeng是Uber的员工工程师，他负责Uber的实时平台和基础设施，包括多个由Kafka/Flink/Pinot等开源技术驱动的关键任务服务。Yupeng是Apache Pinot的 committer.。

APACHE LIMINAL（孵化中）--研究机器学习管道

8月7日 16:10

分享嘉宾：

Aviem Zur、Assaf Pinhasi

议题介绍:

Apache Liminal（孵化中）–展示机器学习管道 Apache Liminal是一个面向数据工程师和科学家的端到端平台，允许他们以一种强大而灵活的方式建立、训练和部署机器学习模型。该平台为数据提取和特征工程提供抽象和声明能力，然后是模型训练和服务；使用标准工具和库（如Airflow、K8S、Spark、scikit-learn等）。Apache Liminal的目标是将机器学习过程操作化，允许数据科学家从一个成功的实验快速过渡到生产中的模型训练、验证、部署和推理的自动化管道，将他们从工程和非功能任务中解放出来，让他们专注于机器学习代码和工件。

嘉宾介绍:

Aviem Zur

数据技术负责人@ Natural Intelligence，Apache Liminal的PPMC成员，Apache Beam的PMC成员。专注于数据框架和平台以及开源软件。对质量工程、开放源码和 Magic: The Gathering 充满热情。

Assaf Pinhasi

技术领导，在建立大规模系统和团队方面有丰富经验，擅长大数据和机器学习。

DORIS的过去、现在和未来

8月7日 16:10

分享嘉宾：陈明雨

议题介绍:

在本次演讲中，我将为大家简要介绍什么是Doris，以及这个项目的发展历程。之后，我会重点介绍Doris在过去一年中开发的众多新的功能，包括于Flink和Iceberg的集成、数据更新和多租户等等。最后，我将介绍Doris当前正在进行的一些令人期待的工作和后续Doris社区的规划路线。

嘉宾介绍:

陈明雨

Apache Doris（Incubating）PPMC。

BIGTOP 3.0: 重塑社区驱动的HADOOP发布版

8月7日 16:50

分享嘉宾：

Kengo Seki、Masatake Iwasaki

议题介绍:

Apache Bigtop提供了领先的开源大数据组件的全面打包、测试和配置，包括但不限于Hadoop、HBase和Spark。虽然Hadoop生态系统为处理大数据提供了丰富的工具集，但它们之间的兼容性并不明确。本次讲座，我们将介绍Bigtop 3.0.0，它是基于Hadoop 3的第一个版本。支持的Linux发行版包括Ubuntu、Debian、CentOS和Fedora也被更新。我们还将讨论为什么产品之间的兼容性问题和依赖性冲突难以迁移，并提到生态系统中正在进行的努力。

嘉宾介绍:

演讲嘉宾：

Kengo Seki

Apache Bigtop的Committer和PMC主席。Apache Airflow和Apache Yetus的Committer和PMC成员。Apache Avro和Apache Thrift的Committer。

演讲嘉宾：

Masatake Iwasaki

Apache Hadoop和Apache Bigtop的Committer和PMC成员。

APACHE INLONG，一个一站式流数据集成解决方案

8月7日 16:50

分享嘉宾：

Goson Zhang、Leo Biao Liu

议题介绍: