[1] 数据技术篇

数据技术篇

采集层

浏览器页面日志采集

  • 页面浏览日志采集

    • 页面浏览量
    • 访客数目
  • 页面交互日志采集

无线客户端日志采集

数据同步

直接同步(ODBC/JDBC)

文件同步(FTP)

解释:
通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。

阿里同步工具Datax:
数据—— DataX 中间状态——对应的数据格式输入相应的数据库

数据库日志解析同步

解释:
解析日志——同步日志交互中心——数据仓库获取

阿里巴巴的 TimeTunnel (TT):

数据同步清洗策略

  • 非入侵式清洗

  • 同步完成后进行清洗

  • 数据同步问题及解决方案

    • 分库分表使用TDDL

      大的表内查东西慢

      解释:
      将多个库内的表合并成一个表

      TDDL:
      在持久层框架之下(数据输出)
      JDBC 驱动之上的中间件
      它与 JDBC 规范保持一致,有效解决了分库分表的规则引擎问题

    • 增量和全局同步

      由于数据量的庞大,一次次数据的全局同步更新不太现实

      解决方法:
      由今天新增的数据量和昨天久的数据量进行合并

    • 数据漂移处理

      数据同步时导致的桥接数据对不上号

      解决:
      1、多拿些数据进行筛选
      2、增加条件配对

应用层

数据挖掘

  • 用户图像

    • 基础属性
    • 购物偏好
    • 社交关系
    • 财富属性
  • 互联网反作弊

  • 反欺诈(自我观点)

  • 金融风控(自我观点)

服务层

服务架构模型进化之路

  • DWSQA
  • OpenApl
  • SmartDQ
  • OneService

数据缓存

  • 元素据缓存
  • 模型缓存
  • 结果缓存

计算层

数据储存以及云计算平台

  • 离线计算平台MaxCompute

  • 实时计算平台StreamCompute

  • 数据分层

    下面通过简单的例子来说明每一层存储的数据。
    • ODS 层:订单粒度的变更过程, 一笔订单有多条记录。
    • DWD 层:订单粒度的支付记录,一笔订单只有一条记录。
    • DWS 层 : 卖家的实时成交金额,一个卖家只有一条记录,并且 指标在实时刷新。
    • ADS 层 : 外卖地区的实时成交金额,只有外卖业务使用。
    • DIM 层:订单商品类目和行业的对应关系维表。

    • 操作数据层ODS
    • 明细数据层DWD
    • 汇总数据层DWS
    • 应用数据层ADS
    • 对应关系维表DIM

数据整合及管理体系OneData

在页面渲染之后通过js页面采集信息

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值