数据技术篇
采集层
浏览器页面日志采集
-
页面浏览日志采集
- 页面浏览量
- 访客数目
-
页面交互日志采集
无线客户端日志采集
数据同步
直接同步(ODBC/JDBC)
文件同步(FTP)
解释:
通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。
阿里同步工具Datax:
数据—— DataX 中间状态——对应的数据格式输入相应的数据库
数据库日志解析同步
解释:
解析日志——同步日志交互中心——数据仓库获取
阿里巴巴的 TimeTunnel (TT):
数据同步清洗策略
-
非入侵式清洗
-
同步完成后进行清洗
-
数据同步问题及解决方案
-
分库分表使用TDDL
大的表内查东西慢
解释:
将多个库内的表合并成一个表TDDL:
在持久层框架之下(数据输出)
JDBC 驱动之上的中间件
它与 JDBC 规范保持一致,有效解决了分库分表的规则引擎问题 -
增量和全局同步
由于数据量的庞大,一次次数据的全局同步更新不太现实
解决方法:
由今天新增的数据量和昨天久的数据量进行合并 -
数据漂移处理
数据同步时导致的桥接数据对不上号
解决:
1、多拿些数据进行筛选
2、增加条件配对
-
应用层
数据挖掘
-
用户图像
- 基础属性
- 购物偏好
- 社交关系
- 财富属性
-
互联网反作弊
-
反欺诈(自我观点)
-
金融风控(自我观点)
服务层
服务架构模型进化之路
- DWSQA
- OpenApl
- SmartDQ
- OneService
数据缓存
- 元素据缓存
- 模型缓存
- 结果缓存
计算层
数据储存以及云计算平台
-
离线计算平台MaxCompute
-
实时计算平台StreamCompute
-
数据分层
下面通过简单的例子来说明每一层存储的数据。
• ODS 层:订单粒度的变更过程, 一笔订单有多条记录。
• DWD 层:订单粒度的支付记录,一笔订单只有一条记录。
• DWS 层 : 卖家的实时成交金额,一个卖家只有一条记录,并且 指标在实时刷新。
• ADS 层 : 外卖地区的实时成交金额,只有外卖业务使用。
• DIM 层:订单商品类目和行业的对应关系维表。- 操作数据层ODS
- 明细数据层DWD
- 汇总数据层DWS
- 应用数据层ADS
- 对应关系维表DIM