大数据之路

1、数据技术篇

1.1 日志采集

1.2 数据同步

  • 数据同步技术是指不同系统间的数据流转,有多种应用场景:

    1. 同类型不同集群数据库之间的数据同步

      • 主数据库与备份数据库之间的数据备份;
      • 主系统与子系统之间的数据更新;
    2. 不同地域、不同数据库类型之间的数据传输交换

      • 分布式业务系统与数据仓库系统之间的数据同步;
  • 直连同步

    • 通过定义好的规范接口API和基于动态链接库的方式直接连接业务库;
    • 能让不同的数据库支持完全相同的函数调用和SQL实现;
    • 配置简单,实现容易,适合操作型业务系统的数据同步;
    • 若业务库采取主备策略,则可以从备库中抽取数据,避免对业务系统产生性能影响(但当数据量较大时,该方法性能较差);
    • 不适合业务系统到数据仓库系统的同步
  • 数据文件同步

    • 通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由FTP之类的文件服务器传输到目标系统后,加载到目标数据库系统中;
    • 适合包含多个异构数据库的数据源以及互联网的日志类数据(通常以文本形式保存);
    • 为了确保数据文件同步的完整性,除了数据文件本身,还会附加上传一个校验文件
    • 在源系统生产数据文件的过程中,可以增加压缩和加密功能来提高文件的传输效率和安全性;
  • 数据库日志解析同步

    • 可以通过源系统的进程,解析日志文件获取发生变更的数据,从而满足增量数据同步的需求;

    • 读取日志的过程不会通过数据库,是在操作系统层面完成任务,因此不会给源系统带来性能影响;

    • 由于数据库日志抽取一般是获取所有的数据记录的变更(增、删、改),落实到目标表时,需要根据主键去重再按照日志时间倒排序获取最后状态的变化情况。

    • 删除数据的处理方法P32;

      • 一般情况下,可以采用不过滤的方式来处理,下游再通过是否删除记录的标识来判断记录是否有效
    • 缺点

      • 数据延迟
      • 投入较大
      • 数据漂移和遗漏(数据漂移一般是对增量表而言,通常是指该表的同一个业务日期数据中包含前一天后一天凌晨附近的数据或者丢失当天的变更数据

1.3 离线数据开发

1.4 实时技术

1.5 数据服务

1.6 数据挖掘

2、数据模型篇

2.1 大数据领域建模综述

2.2 阿里巴巴数据整合及管理体系

2.3 维度设计

2.4 事实表设计

3.、数据管理篇

3.1 元数据

3.2 计算管理

3.3 存储和成本管理

3.4 数据质量

4、数据应用篇

4.1 数据应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值