原内容来自:https://www.jianshu.com/p/73717303fd1a
删除了一些多余的话,整理了一些看不懂的格式
……………………………………………………………………
数据处理流程
数据收集
数据工作的第一步就是收集数据。
优点 | 缺点 | |
---|---|---|
埋点 | 和业务能够紧密结合,支持灵活多变的业务需求 | 有码埋点对业务代码有入侵;无码埋点影响APP性能;有一定维护成本 |
爬虫 | 可以抓取应用外数据,丰富数据类型 | 有一定开发难度;有一定开发和维护成本;需要考虑数据的应用场景 |
采购 | 获取数据容易 | 注意法律红线;需要谨慎考虑数据应用场景 |
数据库同步 | 和业务数据高度一致;和业务需求天然具有关联性 | 对业务数据库有性能消耗,需要考虑数据库性能的极限 |
数据收集方案选择
数据库同步>埋点>爬虫>采购
数据库同步方案
1,根据DB log 日志。例如Sqlserver 开启CTLog,PG 开启WLlog
2,Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步
3,依赖消息队列开发数据同步工具。
注意:
1,要考虑数据同步的时候 对业务数据库的压力。尽量使用从库,对没有从库的业务一定要考虑让步策略,异常策略,一切以业务正常运行为前提。
2,充分考虑数据安全,在大数据安全不够健全的情况下,一定要对于敏感业务的数据,可以通过脱敏,混淆,隔离等方式处理。