大数据学习之路-阿里巴巴
文章平均质量分 51
YJ语
这个作者很懒,什么都没留下…
展开
-
[4]总结
原创 2021-04-07 10:13:24 · 73 阅读 · 0 评论 -
[3] 数据管理
数据管理 元数据管理 技术元数据 集群的存储元数据 表类型,字段类型,大小,分区等 作业调渡(运行)元数据 作业类型,名称,依赖,执行时间,运行参数等 数据同步元数据 数据来源描述,同步字段,同步方式,清洗逻辑,目标地址描述 数据质量和运维元数据 监督,告警,故障,运行状况等 业务元数据 数据清洗转化元数据 业务清洗转换规则 数据模型元数据 维度事实属性,数据分类 应用服务元数据 指标统计,报表统计,业务服务规则 元数据应用 建立血缘图谱,原创 2021-04-06 10:27:47 · 69 阅读 · 0 评论 -
[2] 数据模型
数据模型 概念解释 维度:环境(多个的角度),eg卖家、店铺等 事件:度量,或者解释业务的一个行为 粒度:事件表中的组成单位 数据模型实质上就是对整合的数据进行统一管理(数据仓库) 模型设计 范围:by语句后的字段一般情况都属于维度 选者维度或新建维度 确定主维度表 确定相关为维度表 确定维度属性(尽量丰富,多) 维度一致性的表现形式 如果不同数据域的计算过程使用的维度不一致,就会导致交叉探查 存在问题。 当存在重复的维度,但维度属性或维度属性的值不一致时, 会导致交叉探查无法进行或交叉探查结果错误 共享原创 2021-04-05 10:14:12 · 262 阅读 · 0 评论 -
[1] 数据技术篇
数据技术篇 采集层 浏览器页面日志采集 页面浏览日志采集 页面浏览量 访客数目 页面交互日志采集 无线客户端日志采集 数据同步 直接同步(ODBC/JDBC) 文件同步(FTP) 解释: 通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。 阿里同步工具Datax: 数据—— DataX 中间状态——对应的数据格式输入相应的数据库 数据库日志解析同步 解释: 解析日志——同步日志交互中心——数据仓原创 2021-04-04 19:41:25 · 120 阅读 · 1 评论