数据平台建设整体思路阐述和总结

原内容来自:https://www.jianshu.com/p/73717303fd1a
删除了一些多余的话,整理了一些看不懂的格式
……………………………………………………………………

数据处理流程

在这里插入图片描述

数据收集

数据工作的第一步就是收集数据。

优点 缺点
埋点 和业务能够紧密结合,支持灵活多变的业务需求 有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本
爬虫 可以抓取应用外数据,丰富数据类型 有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景
采购 获取数据容易 注意法律红线;需要谨慎考虑数据应用场景
数据库同步 和业务数据高度一致;和业务需求天然具有关联性 对业务数据库有性能消耗,需要考虑数据库性能的极限

数据收集方案选择

数据库同步>埋点>爬虫>采购

数据库同步方案

1,根据DB log 日志。例如Sqlserver 开启CTLog,PG 开启WLlog
2,Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步
3,依赖消息队列开发数据同步工具。

注意:
1,要考虑数据同步的时候 对业务数据库的压力。尽量使用从库,对没有从库的业务一定要考虑让步策略,异常策略,一切以业务正常运行为前提。
2,充分考虑数据安全,在大数据安全不够健全的情况下,一定要对于敏感业务的数据,可以通过脱敏,混淆,隔离等方式处理。

埋点

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值