最近一直在写关于数据中台的文章,我发现大家都很感兴趣,今天就从数据中台的建设方针来解决各位的疑惑。
横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象,其实就是我们建设数据仓库的阶段。
数据中台建设过程中涉及到大数据平台建设、数据仓库建设、模型算法、数据治理、数据服务等一系列工程,不可能一蹴而就,我们需要梳理业务场景,看他们需要什么样的服务先找一个业务场景,搭建起数据中台的服务能力,然后依次迭代,各个击破。
一、总体规划
数据集成
首先我们需要确认平台接入哪些数据,确认数据接入的方式是实时接入还是离线抽取。离线抽取的话是全量抽取还是增量抽取。抽取频次数每天抽取还是每小时抽取。
实时接入可以使用 kafka 实时写入数据到 HDFS 集群上。
离线数据可以使用 Sqoop 抽取关系型数据库到 HDFS。