【转载】阿里数据技术大图详解

在这里插入图片描述
架构图从下往上看,从数据采集和接入为始,抽取到计算平台,通过OneData体系,以“业务板块+分析维度”为架构去构建“公共数据中心”。

基于公共数据中心在上层根据业务需求去建设消费者数据体系、企业数据体系、内容数据体系等核心数据资产,深度加工后,数据就可以发挥其价值被产品、业务所用。通过数据服务平台“OneService”提供统一数据服务。

目前在这个服务之上正在构建两个智能化平台:数据智能平台和BI平台,数据智能平台让智能服务更便捷的集成到业务流程中,BI平台则让数据分析更敏捷高效。

数据应用层,每天有上万内部员工在使用内部的数据产品。在商家端 ,“生意参谋”累计服务了超2000万商家,帮助商家做一站式经营全链路分析。“数据银行”服务了七千多家头部的品牌,帮助品牌商从流量运营升级到消费者运营。云上通过Dataphin与Quick BI核心中台产品,服务数千家大型企业和机构,其中包括央视网、蓝光地产、大润发、华硕等知名企业。

这一数据应用链路过程中的数据构建、管理、实体连接、标签萃取、立体画像、数据服务能力,可以通俗地理解成阿里数据中台的能力,整套体系包含了方法论、组织和工具。“采建管用”是贯穿了整个应用和数据走向,所谓“采”,即数据采集和同步;所谓“建”,即数据开发和构建;所谓“管”, 即数据管理;所谓“用”,即数据应用和分析。

统一采集管理

经过多年沉淀,DT具备站内流量采集、广告外投采集、爬虫采集和三方授权采集 等多种采集能力,并通过采集管理平台对采集全流程进行统一管理,有效识别作弊流量,保证数据质量和数据安全。

阿里日志平台

阿里数据平台旗下的官方流量数据采集管理平台,从Aplus和UserTrack采集端到端体系到实时计算、离线公共层建设,阿里日志平台提供全链路的流量数据解决方案以及从埋点申请、可视化埋点实施、验证、发布到监控的全生命周期管理。

UT/Aplus

目前已覆盖集团内所有APP,具有数据到达率高,性能好,稳定性高等特点,每天上传万亿条日志,已经成为阿里巴巴大数据基础设施的重要一环。

AplusX长链采集技术

阿里巴巴全双工的采集体系,一次建连,所有请求全部复用,具备多路复用、高性能、双向通讯、端到端攻防、不阻塞业务等特性。

可视化埋点

可视化埋点改变传统的代码埋点的开发模式,统一采集规范和采集技术,实现埋点配置化,降低埋点成本,保证埋点质量。

外部数据采集平台

面向全集团的爬虫采集平台,提供爬虫基础设施建设(包括IP代理池、真机、登录态)、智能接口服务、浏览器渲染、爬取策略设计、脚本开发、数据落库等全系列服务,极采平台提供外部三方数据的采购、资产管理、数据服务。

数据建设和管理

OneData:阿里大数据研发体系和工具
采集的数据经过ODS、DWD、DWS、ADS的数据分层服务进行统一模型设计和计算加工。OneData这套标准化、体系化的大数据建设体系可以帮助大数据团队高效,高质量的建设自己的数仓或数据体系,达到去除数据烟囱式重复建设、降本节能提效。

赤兔流计算平台

时代的竞争要求业务反射弧越来越短,除离线数据外,实时数据计算也是不可或缺的一环。基于Flink和OneData体系构建集团实时数据公共层和流计算开发平台,为集团和云上客户提供流计算服务。目前内部可以通过赤兔贯穿实时数据完整链路。

数据资产管理平台

全域数据建设好之后会面临两个难题:如何组织全域数据方便用户找到,以及如何管控数据,不能重复造轮子,无效的数据如何方便快捷的进行下线从而达到有效的成本管理。团队多年深耕数据资产管理平台,为用户提供多维度数据资产分析与评估,自动化、智能化的数据资产治理,全链路数据资产监管与价值追踪,全方位资产运营工具触达数据消费者,赋能中小企业客户,助力企业实现数据的资产化、管理自动化、商业智能化。

核心数据资产

全域数据资产中的核心资产建设,一直在进行。大OneID体系通过大规模图算法,清理整合多源异构数据,实现了包含个人、位置、企业三者的千亿级别实体的识别和链接,让oneID做到连接时间与空间。

OneID,OneID 是阿里数字经济体在自然人数据上全域融通后的重要资产之一,包括自然人多维度ID,核心人生标签、社会关系,形成了一套跨屏、跨域的自然人身份识别、行为追踪、关系判断系统,经过三代持续升级,已成为全域营销必不可少的资产要素。目前已覆盖了97% 以上的中国网民数据的实体识别和链接。
以“企业”为中心的账号体系OneCompany,实现千万级企业实体识别和连接,目前覆盖7000W家企业,链接1亿+工商企业,企业特征标签。为toB业务打下坚实基础。企业数据资产为核心,通过数据、服务、产品的方式,提升B类业务场景效率&效果,具有阿里特色的智能数据服务体系。
OneLocation, 基于地理位置的数据洞察,覆盖POI、人口、客流等数据的一套核心资产,实现位置数据在经济体内的全面融通,在B端提供基于位置的深度洞察和智能决策能力,提升位置相关运营效率;在C端提供全面的位置感知能力,提升用户线下体验。大家熟悉的盒马选址、团圆打拐项目就是OneLocation很好的应用CASE。

统一数据服务OneService

基于阿里计算平台,建设数据中台统一服务出口。以集团数据公共层(统一模型)提供上层应用接口依始,提供数据查询服务SmartDQ,复杂数据查询服务(承接集团全域自然人中心(OneID)、用户画像(GProfile)),实时数据推送服务Ipush 三大特色数据服务,目前已覆盖淘系、CBU、风控 、 菜鸟、钉钉、高德、飞猪、优酷、阿里妈妈等全域数据。

BI平台技术

从QuickBI 和FBI 产品中沉淀的底层技术引擎体系出发构建统一的BI平台,实现前端渲染引擎和后端分析引擎在架构和功能上的融合,提供通用的数据分析和数据可视化能力,作为基础技术底座承载QuickBI、FBI 和其他更多的数据分析产品。

数据智能平台

是数据智能的从生产、管理、服务、应用的一站式平台,核心目的是希望降低整个数据智能在业务中应用的成本,释放数据的价值。实现三大核心数据资产经济体内打通、管理统一化、服务透明化、应用智能化、价值可量化;沉淀和复用数据智能服务能力,高效赋能新零售业务,实现数据智能普惠。

数据产品

在这里插入图片描述

►小二端

行业—行业360,为集团行业小二打造的行业级决策数据智慧中枢,通过对行业分析方法进行梳理、沉淀和不断优化升级,对小二在行业问题诊断、行业运营决策支持及行业发展趋势预判等方面进行全方位的数据赋能。根据不同业务主要有行业360、猫超360、进出口360三大版本。

商家—商家360(原鹰眼),致力于为内部运营提供“运营视角的系统性一站式商家(包括集团、品牌和店铺,下同)全链路经营数据分析诊断型产品服务”。

活动—营销活动分析,为集团小二提供大促数据作战室日常实时指挥中枢,基于活动前、中、后全链路提供专业的、实时准确的数据分析产品。

流量——A+,集团统一的全域流量数据分析平台。以页面、小站、活动、APP和资源位等作为切入点,构建宏观概览数据、坑位点击分布、路径分析、成交转化、用户细分等流量数据分析闭环,帮助业务掌握流量现状、定位流量问题和提升流量转化。

通用工具—黄金策和FBI : 黄金策打通数据生产、分析和场景应用的全链路对象分析工具。提供多数据源接入、便捷对象圈选、灵活群组分析和方便系统对接的能力,核心解决帮助用户解决群组分析和数据应用两类问题,帮助构建行业对象运营解决方案。FBI是阿里生态内智能大数据可视化和分析平台,帮助各种角色快速、低成本的获取数据、自助完成数据可视化的搭建、在PC和无线端自由的使用数据;提供报表、Dashboard、电子表格、数据门户、数据产品等各种解决方案。

无线——阿里数据官,是一款面向数据用户的对话式智能数据机器人,通过自然语言交互方式提供智能问答、关联推荐、订阅推送、预警归因等功能。旨在帮助用户方便快捷查找数据、简单直观地解读数据、智能深入地挖掘数据,实现人人都有自己的专属分析师,提高数据查询与分析的效率。►商家端

生意参谋: 生意参谋是阿里官方打造的全渠道、全链路、一站式数据平台,致力于为用户提供经营分析、市场洞察、客群洞察等多样化数据服务,帮助用户全面提升商业决策效率。

数据银行:帮助商家管理在阿里数字经济体内的消费者资产的平台。帮助品牌沉淀消费者和品牌的关系,进行度量并持续催化,放大品牌投入的价值,赋能品牌从流量运营升级到消费者运营。

►云上

Quick BI 专为云上用户量身打造的新一代智能BI服务平台;作为基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台,无缝集成云上多种数据源,拖拽式操作、强大的数据建模、丰富的可视化图表、快速搭建数据门户,灵活的嵌入第三方系统。

Dataphin,以OneData、OneID、OneService为方法论的智能大数据平台,一站式满足用户从数据接入到数据消费全链路的智能数据构建与管理的需求,助力打造标准统一、融会贯通、资产化、服务化、闭环自优化的智能数据体系。

∞媒体端

2013年的数据大屏,让媒体、消费者与阿里巴巴第一次在数据层面实现了信息对称,从那以后,数据大屏就成为双11媒体发布不可或缺的一部分。2018年在双11十周年之际,阿里数据团队用最新的可视化与交互手法,诠释了阿里经济体传递的商业与人文的大融合~

数据安全—为数据应用保驾护航

用户对数据安全与隐私保护的重视程度已经变得越来越高;Facebook等企业数据泄露事件的发生、《网络安全法》的发布、欧洲《通用数据保护条例》(General Data Protection Regulation,简称GDPR)的施行,也让各大公司在使用用户数据时,更加注意用户数据的隐私保护。

DT以合规,安全需求为出发点,紧贴业务研究并落地数据安全技术。如差分隐私/本地差分隐私解决数据分析过程中可能出现的个人隐私数据泄露问题;保序脱敏解决公域数据发布、共享中的安全数据脱敏问题;安全多方计算、可信执行环境等数据安全技术,解决多方数据融合场景下可能的数据泄露问题……

差分隐私

Althena数据安全服务平台式数据银行团队基于内部产品矩阵(御膳房大数据开放平台、策略中心、数据银行、数据工厂等)的数据开放业务场景,针对各场景中的安全问题进行一系列理论技术工程研究实践,沉淀出一整套数据安全服务来满足数据查询、数据发布、数据分析过程中的隐私保护,主要覆盖阿里的业务数据(行业及品牌类目相关数据)、客户的个体隐私数据相关保护。数据安全服务平台目前已经接入到集团数据安全服务中。安全服务平台内置人群脱敏、保序脱敏、差分隐私等数据安全服务。

保序脱敏

针对公域数据指数化函数不统一、安全性难以评估等问题。基于密码学保序加密算法的思想,设计并实现多种保序加密/保序脱敏指数化函数,通过配置输入/输出范围、密钥,实现数据脱敏功能的同时,保证脱敏结果的顺序与脱敏前结果的顺序相同,使得脱敏结果仍然具有一定的可比较性。

本地差分隐私

在数据银行的标签上传场景中,用户可以上传自己的数据,通过数据银行进行透视分析。在此过程中,需要针对上传标签实施个体隐私保护。在数据银行中使用了本地差分隐私来解决个人隐私保护问题。

通过本地差分隐私,数据银行可以更安全地支持用户将自己的私有数据和线上数据进行融合分析,更好地帮助品牌商对用户和品牌进行精细化运营,同时平衡了业务和安全之间的需求。在未来新零售战场中可能会出现更多的数据采集和数据融合场景,本地差分隐私可能会进一步在这些场景下得到应用。

总结

数据来自业务,经过阿里数据体系的锤炼最终反哺业务,如此循环往复。未来,通过数据智能的普惠,将会进一步释放数据价值!

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

【江湖】三津

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值