3年从200个数据用户发展到6000人,eBay的大数据平台是如何做到的?

在 7 月首届 Kylin Data Summit 上,大会特别邀请到了eBay 全球研发副总裁、中国研发中心总经理田卫女士带来主旨演讲。eBay,这家在国内非常低调的老牌电商,以其深厚的技术基础在业内广受关注。熟悉 Kylin 的朋友也都知道,Kylin 项目最初也正是在 eBay 内部孵化并完成。今天小编就为大家回顾田卫女士当天的演讲,演讲主题是:增强分析在 eBay 的实践。

增强分析

Gartner在今年 2 月的数据分析峰会上提出了十项数据发展的趋势,其中“增强分析 Augmented Analytics ”被列在第一条, 被 Gartner 誉为“数据和分析的未来”。

在数据可以被分析前,数据工程师需要对数据进行抽取、清洗、融合等准备工作,以提高数据分析的效率和准确性。增强分析Augmented Analytics能够帮助普通用户在没有数据科学专家或IT人员协助的情况下,访问有效数据,并对理论和假设情况展开测试与验证。增强分析作为数据分析的高级增强阶段,能为分析计划带来更多自动化动能以及创新洞察力。(点击此处,查看Gartner对于增强分析的解读)

田卫,eBay 全球研发副总裁、中国研发中心总经理 

eBay的大数据历程

eBay 始于 1994 年,由 eBay 公司发展历史我们也可以窥见整个电商行业的演变。
 eBay 保存了世界上第一笔电商交易数据,一直发展到今天,整个世界电商的发展史都能在 eBay 找到它的痕迹。此外,eBay 横跨了全世界 180 多个国家,eBay 的数据不仅仅局限于某一个地区、市场,是包括北美、欧洲、亚太,整个一条完整的数据链。

通过上图,我们可以对 eBay 的大数据平台有一个快速的了解。eBay 现在处理的数据量涵盖 700PB 数据, 每天查询量在120万左右,这对 eBay 大数据系统有着很高的要求。
目前参与这个系统的数据工程师有6 千余人。Gartner 一份报告显示,在高科技公司内,使用数据来驱动业务增长的人数占 32 %的人。反过来看68%的人还没有真正应用数据,eBay 现在 1 万 4 千人,整个应用数据的人大概达到将近 40% 左右。这个数据也不是一蹴而就的,在 2015 年时,大概只有 200 个数据工程师和数据分析师在应用数据;随着增强型数据平台的推出,用户人数有了大幅增长。

eBay 的大数据生态,以 Data Fabric 为核心
支持以API为基础的数据服务

 

 

 

eBay的大数据演进之路

从上图可以看到,2005年 eBay 的数据平台主要是基于 SQL,record report系统。到 2010年,转向了 Visual Based Discovery 阶段。2015年开始, eBay 从 Teradata 向 Hadoop 大数据平台的迁移,Real-time Streaming 也在那一年出现,进入了一个更为高级的 Visual Based Discovery 阶段。2018年,eBay 大面积开始应用 Hadoop、Spark;以及基于会话式的、NLU等增强式数据分析解决方案。这其中还包括图谱的元数据管理系统,以及自动商业洞察等新技术, eBay 从 2018 年开始真正意义上向增强分析迈进了一步。

客户角度的演变

从客户角度看 eBay 大数据的演进,最早是专职的数据分析师,现在随着增强分析平台推出,可以延展到每一位 eBay 的员工。即使用户不了解数据在什么地方,不了解整个数据背后复杂业务逻辑,也能够非常简便地去做一些基本数据分析和查询。 

从商业决策的流程来看,从过去静态的商业决策,提前通过一些 SQL、dashboard,延展到现在是一个动态的 data dashboard。以前公司领导们在做商业讨论和决策时,都是由分析师拿一些数据报表,现在直接通过 eBay 的增强数据平台,能够直接通过实时 dashboard,快速地进行商业决策。   

数据逻辑非常复杂,而且数据本身也是孤立的,eBay 现在通过 data fabric, 把一个从单个部门孤立的分析视角延展到不同的部门,不同业务之间能够大家共同协作完成一个商业的决定。这是从客户层面我们看到的一个进化,从过去一小部分的核心决策人,延展到每一个人都在使用数据进行分析,以及通过数据来辅助商业决策的用户。

产品角度的演变

从产品层面,eBay 以前依赖于 Teradata,现在发展到了一个自研的基于开源的一整套解决方案。从使用到的技术上来讲,非常契合 Gartner 的预测,有 Data Fabric,智能化数据运维、Ad-hoc OLAP 查询;以及基于 NLP,机器学习等技术的对话式的交互分析。还有 open metadata, 这是整个大数据智能化很重要很重要的一个核心。eBay 做了一个open metadata framework 去赋能大数据的演进。

上图是 Gartner 在2019年提出的十个大数据领域的趋势,eBay 中国研发中心已经在标黄色的五个方面取得了显著的成绩。eBay 的技术人员会继前行,通过实时分析,与业务部门的深度整合,为 eBay 业务部门提供实时、自动化的,可以进一步提升业务能力的建议。 

eBay数据分析生态

 

iDo

从数据管理这个角度来看,eBay有一套完整的 intelligent data operation,  iDo,它能够自动化地计划、部署所有的作业,然后自动化进行监测。当有一些作业发生问题的时候,可以进行自动修复。Gartner 预测到 2020 年,增强技术可以降低大概45% 数据运维人员和数据 IT 人员的投入。在 eBay 当这个 iDo 产品推出以后,eBay 数据运维人员减少了 60%。

Open Metadata

这是一个跨平台,跨领域的平台。可以支持Teradata, Hadoop,以及其他不同的数据源;能够做自动发现,同时通过图谱把不同数据之间的关系、血缘,以及业务逻辑,数据逻辑整合起来。 

Zeta

这个平台相当于数据开发工程师的集成开发环境 IDE,它面向所有的数据开发工程师,当数据工程师需要开发一个数据产品时,这个平台能够帮助工程师有效地构建、部署以及调度作业,并帮助数据工程师进行调优;平台也可以自动分析用户的SQL,帮助用户诊断其性能瓶颈在什么地方,很方便地帮助用户进行debug和调优,以及一键式发布;同时还可帮助数据科学家在这个平台进行ad-hoc的查询和基本的分析工作。

MMD

MMD, Moving Metrics Detection,这个平台通过无监督机器学习,去发现数据的 pattern,在哪些地方有瓶颈,然后还可以自动地预测数据 pattern 有可能发生的一些趋势变化,重新找到它的 change point,在新的 pattern下面再进行进一步发现。

GRO

Global Retail Automation,它是通过机器学习理解市场趋势以及帮助销售人员有效地做他们的库存的管理。做这种定位的管理,能够更好地帮助他们驱动他们在eBay上的业务增长。

Nous

Nous 是 eBay 的增强分析产品的代表之一,背后是基于 bot 的技术,用户可以跟它进行交互式的数据查询和报表分析。这个产品体现了三个核心价值: 

  • 容易,任何一个人可以容易到像在谷歌上搜索一个普通的关键词一样,去搜索要做的数据分析,或者感兴趣的一些商业上的点。
  • 智能,它取代了传统报表,不但能够产生报表,还可做一些具体定位的分析,可能是因为什么原因造成了现在数据上的一些偏差。
  • 快,无论后台是使用 Teradata 还是用 Hadoop,能够实现非常快非常及时的数据分析的结果。

eBay 在增强分析数据上刚刚迈了第一步,未来还会继续不断地加快在增强型数据分析和数据管理上步伐;eBay 中国研发中心也期待能进一步跟业务部门集成在一起,为业务部门提供更加实时、便捷的分析服务,助力 eBay 创造更多经济价值;同时 eBay 将秉承一贯作风,把好的技术、实践、产品贡献到开源社区,带动整个大数据业界的发展。

Pulsar 是 eBay 开源的实时大数据分析平台。作为全球性的商务平台和支付行业领先者,拥有海量的用户行为数据。基于现有的hadoop大数据处理,已经不能够满足业务上对实时性的需求。基于过去的大数据处理的经验和对最新技术的运用,探索出一个对海量的数据流进行实时的收集,处理,分发和分析的平台。并于20152月底开源此平台: Pulsar。Pulsar 作为一个复杂事件处理平台,具有快速,准确,灵活的特性,保证点到点的低延时和高可靠,从而很好得满足了的eBay秒级实时数据分析的需求。同时每秒百万级流量处理能力,给客户带来更好的个性化体验,帮助客户监控实时业务信息并定制实时营销策路,及时监测网络欺诈行为并减少机器人干预。并且Pulsar是基于标准的分布式云架构部署并跨越多个数据中心,从而保证了在系统升级和拓扑更新时没有集群停机时间。Pulsar 平台提供了一个完整的实时大数据分析的解决方案:该平台能够实时收集 Event Stream,并且对 Event 进行实时的 Enrichment 和 Sessionization,推送到不同的实时应用,同时能够实时的进行统计和分析,对业务提供 Key insights.在 Pulsar 平台内部,它把 Event Stream 看成一种类数据库的表,在上面通过应用申明式的4GL来定义Business logic. 并且同时开源了作为支撑Pulsar 的一个全新的大数据流处理框架: Pulsar Jetstream.Pulsar.Stream是一个通用的全新的大数据流的处理框架。他实现了一个开放的,自动发现的Topology, 不同的应用可以分布在不同的Data center, 通过网络进行自动的发现并且建立连接,数据主动从Producer推送到Subscriber. 在每个应用内部,通过Pipeline的方式连接各个业务模块,并且支持用4GL的EPL来定义业务逻辑。整个的topology是开放的并且能够动态扩展,相应的EPL也能够进行动态的更新且没有服务中断。典型的部署结构介绍来自 CSDN 标签:EbayPulsar
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值