企业发展初期,数据研发是紧贴业务发展而演变的,数据体系基于业务单元垂直建立,形成多个垂直化业务数据体系。
随着企业发展,业务需要的数据不再是垂直化的,向数据研发提出了多数据类型的数据使用需求。
跨垂直单元的数据问题繁多:
1)数据标准不统一
在建立OneData之前,阿里数据有30000多个指标,其中,即使是同样的命名,但定义口径却不一致。例如,仅uv这样一个指标,就有十几种定义。带来的问题是:都是uv,我要用哪个?都是uv,为什么数据却不一样?
2)服务业务能力
由于数据模式是跟着垂直业务,导致一开始只支持了淘宝、天猫、1688等少数业务团队。而更多有个性化需求的业务团队却无法提供更多支持。
3)计算存储成本
由于没有统一的规范标准管理,造成了重复计算等资源浪费。而数据表的层次、粒度不清晰,也使得重复存储严重,仅淘系的数据表就超过了25000张,集团总数据的存储量每年以2.5倍的速度在增长,可以预见的未来的将会带来巨大的数据成本负担,我们不得不去做一些改变。
4)研发成本
每个工程师都需要从头到尾了解研发流程的每个细节,对同样的“坑”每个人都会重新踩一遍,对研发人员的时间和精力成本造成浪费
阿里数据中台战略中的OneData统一数据标准和实时数据分析就解决了打通垂直化业务数据的需求。