sdk 今日头条_今日头条大数据分析平台艰辛成长路

随着业务发展,今日头条面临数据量急剧增长的挑战,建立了数据平台以满足多样化数据需求。平台经历了从无到有,逐步演进的过程,包括SDK、用户埋点、数据传输、数据入库、数据计算和数据门户等环节。在数据生成与采集阶段,通过SDK和埋点管理系统确保数据质量;数据传输使用Kafka作为消息总线;数据入库涉及数据仓库和ETL过程;数据计算则利用Spark SQL和Hive等引擎;最后,数据门户提供整体解决方案,降低数据使用门槛。
摘要由CSDN通过智能技术生成

随着公司规模的发展,数据量呈递增式爆棚,他也见证了基础数据平台从无到有、从小到大的历程。头条在这一发展过程中对于数据使用及难度都经历了数量级的变化。本文将与大家分享数据平台经历的各种坑及一些重要的技术决策。

基础数据平台的建设历程

为什么要建设基础数据平台?

对于初创公司来讲,核心是服务好用户,做好产品功能的迭代。当公司发展到一定阶段,业务开始多元化并开始精细化运营,数据需求变多,产生的数据量和数据处理复杂度也大幅增加,这时就该建设基础数据平台了。

2014 年,头条每天只有几百万活跃用户,支撑好产品是首要任务,并没有专门的人负责做数据。众多复杂业务的上线,同步会招聘大量的 PM(产品经理)和运营。基于刻到骨子里的数据驱动的思想,各种各样的数据需求源源不断的被提上来,这时不再是几个数据工程师单打独斗就能解决问题了,而让PM 和运营直接分析数据的门槛也很高。

面对这些情况,头条的做法是成立数据平台团队,把数据基础设施像Hadoop、Hive、Spark、Kylin 等封装成工具,把这些工具结合通用的分析模式整合成完整的解决方案,再把这些解决方案通过平台的形式,提供给业务部门使用。

这里需要注意数据平台的发展是一个演进的过程,并不需要追求一开始就大而全,不同阶段采用的技术能匹配当时需求就好。

基础数据平台的职责什么?

数据平台的需求最初来自推荐业务,从用户的阅读需求出发,搭建面向全公司的通用数据平台。其中,用户数据(内容偏爱、行为轨迹、阅读时间等)是头条最庞大的数据源,这些被记录下来的数据反映了用户的兴趣

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值