数据源(产生):
内部数据
前端:埋点,日志
后端:数据库
业务系统数据
外部数据:爬虫,搜索引擎
数据存储(数据仓库):
文件服务管理规范
增量
全量
重传序号
MD5校验文件(MD5值是否相同判断上传下载是否相同)
接口表文件:相当于一批数据的目录
基本概念:不生产也不消费数据
和数据库区别:事务和分析的区别
OLTP:联机事务处理一般是业务数据
OLAP:联机分析处理一般是历史数据
ODS(元数据层)
经过ETL到(可以有计算层)
DW(数据仓库层)
DA(数据应用层)
为什么以要分层:用空间换时间,加快分析效率,简化数据清洗
元数据管理:横跨整个数据仓库架构
记录数据的流向日志等
数据质量: