大数据学习之路-阿里巴巴
文章平均质量分 51
YJ语
这个作者很懒,什么都没留下…
展开
-
[4]总结
原创 2021-04-07 10:13:24 · 75 阅读 · 0 评论 -
[3] 数据管理
数据管理元数据管理技术元数据集群的存储元数据表类型,字段类型,大小,分区等作业调渡(运行)元数据作业类型,名称,依赖,执行时间,运行参数等数据同步元数据数据来源描述,同步字段,同步方式,清洗逻辑,目标地址描述数据质量和运维元数据监督,告警,故障,运行状况等业务元数据数据清洗转化元数据业务清洗转换规则数据模型元数据维度事实属性,数据分类应用服务元数据指标统计,报表统计,业务服务规则元数据应用建立血缘图谱,原创 2021-04-06 10:27:47 · 73 阅读 · 0 评论 -
[2] 数据模型
数据模型概念解释维度:环境(多个的角度),eg卖家、店铺等事件:度量,或者解释业务的一个行为粒度:事件表中的组成单位数据模型实质上就是对整合的数据进行统一管理(数据仓库)模型设计范围:by语句后的字段一般情况都属于维度选者维度或新建维度确定主维度表确定相关为维度表确定维度属性(尽量丰富,多)维度一致性的表现形式如果不同数据域的计算过程使用的维度不一致,就会导致交叉探查 存在问题。当存在重复的维度,但维度属性或维度属性的值不一致时, 会导致交叉探查无法进行或交叉探查结果错误共享原创 2021-04-05 10:14:12 · 284 阅读 · 0 评论 -
[1] 数据技术篇
数据技术篇采集层浏览器页面日志采集页面浏览日志采集页面浏览量访客数目页面交互日志采集无线客户端日志采集数据同步直接同步(ODBC/JDBC)文件同步(FTP)解释:通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。阿里同步工具Datax:数据—— DataX 中间状态——对应的数据格式输入相应的数据库数据库日志解析同步解释:解析日志——同步日志交互中心——数据仓原创 2021-04-04 19:41:25 · 125 阅读 · 1 评论