Apache 首次亚洲虚拟技术峰会:大数据专场预告第2波

 引言


随着数字化、信息化时代的发展,以数字驱动为特征、数据资源为要素的数字经济正逐渐影响我们的工作与生活。对于企业来说,数字化同样是不可错失的大机遇。而大数据技术正在这场数字化时代发展中承当重要责任。提到大数据,就不得不说我们熟知的 Apache 软件基金会。今年,由其主办的开源界年度盛会 - ApacheCon Asia将在8月6日开始。如果您关注大数据,那这场峰会值得您参与。


 ApacheCon Asia


ApacheCon 可以说是开源界最早、面向全球开发者的大型技术交流盛会之一。自1998年至今,大会已经吸引了超过 350 个技术项目和不同社区参与其中。


今年,ApacheCon 首次来到亚洲(往届都在海外举行)。为了让更多感兴趣的人参与进来,ApacheCon 将以亚太时区为主,通过线上的方式举行


e124e7c9-c542-4537-812d-db04ab1674c8.png

时间:8月6日 - 8月8日

活动官网:

https://www.apachecon.com/acasia2021/

报名链接:

https://hopin.com/events/apachecon-asia-2021


 大数据论坛 


大数据是本次大会14个重大主题之一。大会3天,大数据论坛也将持续3天,由此可见其重要性。在此次大会中,Arrow、Atlas、Bigtop、CarbonData、Cassandra、DolphinScheduler、Doris(孵化中)、Druid、Flink、Hadoop、HBase、Hive、HUDI、Impla、Kylin、Kyuubi(孵化中)、Liminal(孵化中)、Nemo、Pinot、Pulsar、Spark、YuniKorn(孵化中)等Apache顶级项目或正在孵化中的项目;以及现下较为火热的 Milvus、openLooKeng 等开源项目均会在大会上展示。大数据技术前沿趋势与来自一线用户的实践经验、原理、架构分析等精彩内容,3天盛会,相信您一定有所收获。


 出品人


07d36d86-7907-4380-ae54-27f63c92d9bd.png


 主持人 


5d0b6a9b-7775-4825-9800-a96ad594c02b.png


在上一期的推文中,我们了解了 ApacheCon Asia-大数据专场的第一天的大咖们,这里就不在赘述,有兴趣的朋友可以点此大数据大咖预告第一波回顾。本期,我们来讲讲大数据专场第二天的精彩亮点。


ApacheCon Asia 2021

大数据大咖预告第二波

2021年8月7日


由CASSANDRA驱动的工作流程实现了大规模的自动化


8月7日 13:30

分享嘉宾:Maciej Swiderski


议题介绍:

在本演讲中,您将看到Apache Cassandra的实际应用,它能够大规模地运行基于工作流的业务逻辑–从传统的服务,到以无服务器方式运行的功能和功能流,Apache Cassandra以最佳方式展示其功能。将工作流与Apache Cassandra结合起来,可以实现传统方法无法实现的各种用例,主要是受制于数据访问的挑战。


嘉宾介绍:

96b2e230-5157-4eee-aeca-746c8d3a24f6.png

Maciej Swiderski

OpenEnterprise的一名独立软件工程师。自2007年以来,他在业务自动化和工作流程领域,从开发的角度和帮助采用业务自动化在不同的部门。在过去的几年里,他利用各种云原生解决方案,如Kubernetes、KNative,大规模地构建和运行工作流程。他对开放源码充满热情,并试图尽可能地推广它。他也是开源项目Automatiko的创建者,旨在建立基于工作流的服务和功能。


在APACHE DRUID中分析事务性数据


8月7日 13:30

分享嘉宾:Vijay Narayanan


议题介绍:

Apache druid是一个用于实时分析的平台。由于druid不支持行级更新,因此在druid中处理围绕一个恒定主键变化的事务性数据是具有挑战性的。本次会议将重点讨论如何在druid中处理这些数据,并使用druid对这些数据进行传统的OLAP分析和用户行为/漏斗分析。


嘉宾介绍:

d7c0bb53-9d1d-4a20-9b60-15b80eff91b8.png

Vijay Narayanan

Vijay在数据领域有大约15年以上的经验。Vijay目前是Imply(Imply为开源的druid提供商业企业支持)的一名现场工程师。在这个职位上,Vijay专注于帮助亚太地区的客户使用Imply平台(基于Apache druid)。在Imply之前,Vijay在cloudera工作了两年,帮助cloudera合作伙伴定位和使用cloudera平台。在Cloudera之前,Vijay在Informatica工作了10年,他是为Informatica云提供连接的团队的一员。


OMINIRUNTIME:一个简洁的大数据运行时框架


8月7日 14:10 

分享嘉宾:张景芳


议题介绍:

当前主流数据分析引擎的数据处理过程中,不同的引擎均有自己的优化方式,这也造成当前烟囱式优化现状。基于此,我们发现并提供统一的解决方案:OmniRuntime;使得一处优化,多处计算引擎均能收益,如支撑openLooKeng、Spark、Hive等大数据引擎计算加速。本期讲座,我将分享OmniRuntime的关键技术与性能实践。


嘉宾介绍:

67005098-bf0e-496e-b1b1-0c88c4bb5f5b.jpg

张景芳

openLooKeng Committer,拥有9年的大数据开发经验。曾负责海量存储主动化项目的设计和开发,深度参与OpenLooKeng计算引擎的内核设计和开发,涉及OmniRuntime的设计和开发。跨数据中心查询技术探索,以及数据传输优化工作。


基于 APACHE IMPALA & KUDU 打造的实时用户行为分析系统


8月7日 14:10

分享嘉宾:张倩琼


议题介绍:

SensorsData公司目前是中国最大的大数据平台和市场技术产品供应商之一。在Sensors Data,我们为超过1000家公司提供基于Impala和Kudu的先进用户行为分析解决方案。在神策提供的1000多个独立平台上,每天会接入超过2000亿的用户事件。在平台的发展过程中,我们获得了一些实践经验。


嘉宾介绍:

6c6bafa4-4282-4cf2-8699-a8646c8afb3d.jpg

 张倩琼

Sensorsdata的大数据架构师,在基础设施部门工作,负责开发分布式存储和计算系统。他在工作中对hadoop、kudu、impala、flink和其他Apache系统的系统优化有非常丰富的经验。


APACHE OZONE:用于分析工作负载的高性能对象库


8月7日 14:50  

分享嘉宾:

Rakesh Radhakrishnan

Mukul Kumar Singh


议题介绍:

Apache Ozone是一个强大的、分布式的键值对象存储,用于Hadoop,具有分层结构和强大的一致性。它提供了对象存储的语义(像Amazon S3),可以处理数十亿的对象。本讲座将深入探讨Apache Ozone的架构,描述原子重命名和删除的实现,这大大提升了分析工作的性能。我们将通过性能基准测试结果,显示在各种分析工作负载中获得一致的性能提升。最后,我们还将谈论未来的路线图,以利用这种新的设计,通过避免全局锁来实现命名空间操作的高效锁管理。


嘉宾介绍:

84255726-e710-46fe-8856-0d358ae9d683.png

Rakesh Radhakrishnan

Apache Hadoop、Apache ZooKeeper、Apache BookKeeper项目的Committer和PMC,主要关注开源大数据技术。Rakesh目前在Cloudera工作,并在Apache Ozone项目中积极贡献。他在大型分布式软件平台设计和开发方面有超过14年的经验。在加入Cloudera之前,他曾在英特尔公司担任大数据软件工程师。

演讲嘉宾:

Mukul Kumar Singh

Mukul毕业于卡内基梅隆大学,目前在Cloudera工作,领导存储团队从事Apache Ozone和Apache HDFS的工作。他在存储系统和文件系统方面已经工作了12年,扮演过各种角色,包括开源贡献者、Apache PMC成员、研究员和软件开发人员。他还曾在Nimble Storage和NetApp工作,并分别负责WAFL和CASL文件系统。


APACHE OZONE如何通过RAFT协议建立起高可用性


8月7日 14:50 

分享嘉宾:

程力、Shashikant Banerjee、Nanda Kumar


议题介绍:

Apache Ozone是Hadoop的一个可扩展的、冗余的、分布式的对象存储,在2020年成为Apache顶级项目。S 作为Apache Ozone的早期采用者,腾讯大数据平台已经部署了一个超过1000个节点的Ozone集群作为大数据应用的后台存储。腾讯还利用Ozone作为一些私人数据仓库项目的主要存储解决方案。由于Ozone被大量使用,Ozone的高可用性被列为生产中支持的首要任务。本讲座中,您将了解Ozone是如何保持高可靠性,Ozone团队是如何优化其性能的。


嘉宾介绍:

8e713e65-b6e0-4703-9a0d-5adc36d3d559.jpg

程力

现任高级工程师,负责腾讯云COS的大数据存储。曾在AWS S3和华为存储团队工作。同时也活跃在开源社区。目前是Apache Ozone PMC和Hadoop Committer。 

c940e175-353c-4796-9565-0dadec45279c.png

Shashikant Banerjee

软件工程专家,在设计和构建可扩展和高性能的分布式存储系统方面拥有8年以上的经验。目前是Apache Hadoop、Apache Ozone和Apache Ratis社区的提交者和PMC成员。

演讲嘉宾:

Nanda Kumar

软件工程专家,在设计和构建可扩展的分布式存储系统方面有9年以上的经验。目前是Apache Hadoop和Apache Ozone社区的提交者和PMC成员。


当APACHE ATLAS遇到APACHE FLINK


8月7日 15:30 

分享嘉宾:

Josh Yeh、Yan Liu


议题介绍:

Apache Atlas已经成为元数据管理的明星项目之一,它可以处理从数据线到数据标签和术语。Apache Flink也已经成为了流处理的标准,虽然Apache Flink在大规模处理数据方面很强大,但追踪数据线成为了Apache Flink的一个问题。在这次会议上,我想分享最近社区在连接Apache Atlas和Apache Flink方面的进展,以及社区如何从跟踪Apache Flink应用的元数据中获益。


嘉宾介绍:

c6a7fc87-0790-4489-a9b0-f20b083a91af.png

Josh Yeh

Cloudera软件工程师,目前正在研究使用Apache Flink和Apache Atlas的流式工作流治理。之前的项目包括在Cloudera多租户SAAS平台和企业内部产品Cloudera Data Science Workbench(CDSW)上开发机器学习操作(MLOPS),利用ML/DL/AI框架建立数据管道/工作负载自动化:keras, pytorch, tensorflow, CDSW Nvidia GPU支持,以及Cloudera Manager HDFS和Hive备份和灾难恢复(BDR)。

83915fd0-8adb-4c76-aa84-9262b38c9917.jpg

Yan Liu

在Cloudera做了5年的解决方案工程师,我帮助很多客户成功地将Apache项目应用到生产系统中。


在LINKEDIN和UBER使用APACHE PINOT进行大规模的实时分析


8月7日 15:30 

分享嘉宾:

Siddharth Teotia、Yupeng Fu


议题介绍:

Apache Pinot(孵化中)是一个分布式列式OLAP引擎,可以实时摄取数据,并以低延迟和高吞吐量提供分析查询。自从Pinot进入Apache孵化期以来,在过去的几年里,它已经发展和成熟了。LinkedIn和Uber拥有最大的Pinot生产装置,我们利用Pinot作为离线(批处理)和实时数据的高速分析查询的事实解决方案。在这个联合演讲中,我们将深入探讨由LinkedIn和Uber贡献的一些主要功能。具体来说,我们将介绍以下功能,简要讨论设计和实现,遇到的挑战,以及它们如何在LinkedIn和Uber内部被大规模使用。


嘉宾介绍:

bf3b5ce2-87d8-4abe-95ea-c21154c0c5fa.png

Siddharth Teotia

在LinkedIn的Pinot团队工作,该团队隶属于系统和基础设施组。在加入LinkedIn之前,他在Oracle的数据库内核组工作了3年半,负责存储、索引和内存列式查询处理。在Oracle之前,Siddharth在Dremio工作了2年,是建立分布式数据湖查询引擎的早期工程师之一。他也是Apache Pinot和Apache Arrow的PMC成员。

96777e10-42c6-4d03-9400-0161c0ac9450.jpg

Yupeng Fu

Yupeng是Uber的员工工程师,他负责Uber的实时平台和基础设施,包括多个由Kafka/Flink/Pinot等开源技术驱动的关键任务服务。Yupeng是Apache Pinot的 committer.。


APACHE LIMINAL(孵化中)--研究机器学习管道


8月7日 16:10 

分享嘉宾:

Aviem Zur、Assaf Pinhasi


议题介绍:

Apache Liminal(孵化中)–展示机器学习管道 Apache Liminal是一个面向数据工程师和科学家的端到端平台,允许他们以一种强大而灵活的方式建立、训练和部署机器学习模型。该平台为数据提取和特征工程提供抽象和声明能力,然后是模型训练和服务;使用标准工具和库(如Airflow、K8S、Spark、scikit-learn等)。Apache Liminal的目标是将机器学习过程操作化,允许数据科学家从一个成功的实验快速过渡到生产中的模型训练、验证、部署和推理的自动化管道,将他们从工程和非功能任务中解放出来,让他们专注于机器学习代码和工件。


嘉宾介绍:

971128a8-703d-4bab-827b-6a01c47dcdfa.png

Aviem Zur

数据技术负责人@ Natural Intelligence,Apache Liminal的PPMC成员,Apache Beam的PMC成员。专注于数据框架和平台以及开源软件。对质量工程、开放源码和 Magic: The Gathering 充满热情。

58f2e328-fbe2-476e-84f6-7afc9da8fe1d.png

Assaf Pinhasi

技术领导,在建立大规模系统和团队方面有丰富经验,擅长大数据和机器学习。


DORIS的过去、现在和未来


8月7日 16:10 

分享嘉宾:陈明雨


议题介绍:

在本次演讲中,我将为大家简要介绍什么是Doris,以及这个项目的发展历程。之后,我会重点介绍Doris在过去一年中开发的众多新的功能,包括于Flink和Iceberg的集成、数据更新和多租户等等。最后,我将介绍Doris当前正在进行的一些令人期待的工作和后续Doris社区的规划路线。


嘉宾介绍:

d006f7fe-b918-4889-ad49-e42206e6c50f.jpg

陈明雨

Apache Doris(Incubating)PPMC。


BIGTOP 3.0: 重塑社区驱动的HADOOP发布版


8月7日 16:50 

分享嘉宾:

Kengo Seki、Masatake Iwasaki


议题介绍:

Apache Bigtop提供了领先的开源大数据组件的全面打包、测试和配置,包括但不限于Hadoop、HBase和Spark。虽然Hadoop生态系统为处理大数据提供了丰富的工具集,但它们之间的兼容性并不明确。本次讲座,我们将介绍Bigtop 3.0.0,它是基于Hadoop 3的第一个版本。支持的Linux发行版包括Ubuntu、Debian、CentOS和Fedora也被更新。我们还将讨论为什么产品之间的兼容性问题和依赖性冲突难以迁移,并提到生态系统中正在进行的努力。


嘉宾介绍:

演讲嘉宾:

Kengo Seki

Apache Bigtop的Committer和PMC主席。Apache Airflow和Apache Yetus的Committer和PMC成员。Apache Avro和Apache Thrift的Committer。

演讲嘉宾:

Masatake Iwasaki

Apache Hadoop和Apache Bigtop的Committer和PMC成员。


APACHE INLONG,一个一站式流数据集成解决方案


8月7日 16:50 

分享嘉宾:

Goson Zhang、Leo Biao Liu


议题介绍:

在大数据场景下,从零开始构建一个完整的数据流服务平台是非常耗时的,而且很难提供快速、稳定的服务。Apache InLong是一个一站式的流数据集成解决方案,它提供了发布和订阅流数据的功能,基于这个系统,可以轻松构建基于流数据的分析和应用。


嘉宾介绍:

fb57477d-0638-4689-ac6f-babfd19255e9.jpg

Goson Zhang

Apache InLong项目PPMC,在腾讯数据平台部的数据存储组工作。

演讲嘉宾:

Leo Biao Liu

在腾讯数据平台部的实时计算组工作。


报名方式

ApacheCon Asia 2021

8月6日-8日  


扫描下方二维码或点击文末阅读原文

即可报名

ded3045f-1cc9-4134-8af6-61984fbf3c03.png

ApacheCon Asia 2021

https://www.apachecon.com/acasia2021/


2d6767b7-1bfa-402b-b8f7-5bd97bfbdada.png






欢迎扫码关注:

39dc3ab3-84ba-4e4c-a509-59e80f1fc3f3.jpg

Apache Doris(incubating)官方公众号



相关链接:

Apache Doris官方网站:

http://doris.incubator.apache.org

Apache Doris Github:

https://github.com/apache/incubator-doris

Apache Doris 开发者邮件组:

dev@doris.apache.org


                     


                                                      7ab0d1c0-e915-4639-9143-e80159f4d23e.png





本文分享自微信公众号 - ApacheDoris(gh_80d448709a68)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ApacheDoris

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值