数据平台建设整体思路阐述和总结

本文详细阐述了数据平台的建设思路,包括数据收集、数据仓库设计、数据分析和数据应用。数据收集涉及数据库同步、埋点和工具如Flume的使用。数据仓库设计遵循最细粒度组织和大宽表原则,关注业务矩阵、事实与维度表。数据分析涵盖BI报表、多维分析到机器学习的演进。数据应用则讨论了指标体系构建、产品增值服务和内部支撑系统的构建。
摘要由CSDN通过智能技术生成

原内容来自:https://www.jianshu.com/p/73717303fd1a
删除了一些多余的话,整理了一些看不懂的格式
……………………………………………………………………

数据处理流程

在这里插入图片描述

数据收集

数据工作的第一步就是收集数据。

优点 缺点
埋点 和业务能够紧密结合,支持灵活多变的业务需求 有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本
爬虫 可以抓取应用外数据,丰富数据类型 有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景
采购 获取数据容易 注意法律红线;需要谨慎考虑数据应用场景
数据库同步 和业务数据高度一致;和业务需求天然具有关联性 对业务数据库有性能消耗,需要考虑数据库性能的极限

数据收集方案选择

数据库同步>埋点>爬虫>采购

数据库同步方案

1,根据DB log 日志。例如Sqlserver 开启CTLog,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值