大数据之路总结
文章平均质量分 91
jialun0116
浙江工业大学
展开
-
大数据之路——数据质量
十五、数据管理——数据质量15.1 数据质量保障原则15.2 数据质量方法概述15.2.1 消费场景知晓15.2.2 数据生产加工各个环节节点校验15.2.3 风险点监控15.2.4 质量监控15.2.5 质量配套工具数据质量时数据分析结论有效性和准确性的基础,也是一切的前提。确保数据可用性15.1 数据质量保障原则完整性。数据完整性是数据最基础的保障;指数据的记录和信息是否完整,是否存在缺失的情况。数据缺失包括记录的缺失和记录中某个字段信息的缺失准确性。数据汇总记录的信息和数据是否准原创 2021-11-22 14:25:45 · 1653 阅读 · 1 评论 -
大数据之路——存储和成本管理
十四、数据管理——存储和成本管理14.1 数据压缩14.2 数据重分布14.3 存储治理优化14.4 生命周期管理14.4.1 生命周期管理策略14.4.2 通用的生命周期管理矩阵14.5 数据成本计算对于数据爆炸式的增长,有效地降低存储资源的消耗,节省存储成本。14.1 数据压缩背景:在分布式系统中为了提高数据的可用性与性能,通常会将数据存储三份。方案:在MaxCompute中提供了archive压缩方法,默认值(6,3)即6份数据 + 3份校验块。能够把存储比例从1:3变成1:1.5。但是恢原创 2021-11-22 13:16:09 · 1826 阅读 · 0 评论 -
大数据之路——计算管理
十三、数据管理——计算管理13.1 系统优化13.1.1 HBO History-Based Optimizer13.1.2 CBO Cost-Based Optimizer13.2 任务优化13.2.1 Map倾斜及优化13.2.2 Join倾斜及优化13.2.3 Reduce 倾斜及优化降低计算资源的消耗,提高任务执行的性能,提升任务产出的时间13.1 系统优化通过分析计算系统的数据运行情况,判断计算系统对内存、CPU、Instance 个数这些资源的运用是否合理(指计算时间更短,使用的资源原创 2021-11-21 11:21:28 · 1984 阅读 · 2 评论 -
大数据之路——元数据
十二、数据管理篇——元数据12.1 元数据概述12.2 元数据价值12.3 统一元数据体系建设12.4 数据建模12.5 产品12.5.1 Data Profile12.5.2 元数据门户12.5.3 应用链路分析12.1 元数据概述传统的定义:元数据是关于数据的数据。打通了元数据、数据仓库、数据应用,记录了数据从生产到消费的全过程。<>元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。技术元数据(Technical Meta原创 2021-11-19 09:33:57 · 814 阅读 · 0 评论 -
大数据之路—— 事实表设计
十一、数据模型篇—— 事实表设计11.1 事实表基础11.1.1 事实表特性11.1.2 事实表设计原则11.1.3 事实的设计准则11.1.4 事实表设计方法11.2 事务事实表11.2.1 单事务事实表11.2.2 多事务事实表11.2.3 两种事实表比较11.3 周期快照事实表11.3.1 特性11.3.2 设计步骤11.3.3 注意事项11.4 累计快照事实表11.4.1 特性11.4.2 设计步骤11.4.3 特殊处理11.4.4 物理实践11.5 三种事实表比较11.6 无事实的事实表11.7原创 2021-11-18 08:00:00 · 1436 阅读 · 1 评论 -
大数据之路—— 维度设计
十、数据模型篇—— 维度设计10.1 维度设计基础10.1.1 基本概念10.1.2 维度的基本设计方法10.1.3 层次结构10.1.4 规范化和反规范化10.1.5 一致性维度和交叉探查10.2 维度设计高级10.2.1 维度整合10.2.2 维度拆分10.2.3 历史归档10.3 维度变化10.3.1 缓慢变化的维度10.3.2 快照维表10.3.3 极限存储10.3.4 微型模型10.4 特殊维度10.4.1 递归层次10.4.2 行为维度表10.4.3 多值维度10.4.4 多值属性10.4.5原创 2021-11-16 18:50:02 · 2086 阅读 · 0 评论 -
大数据之路—— 数据整合和管理体系
九、数据模型篇—— 数据整合和管理体系9.1 体系架构图9.2 名词术语9.3 指标体系9.4 模型设计9.4.1 基本原则9.5 模型实施大数据建设方法论的核心:从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理性、可追溯、可规避重复建设。<>建设统一的、规范的数据接入层和中间层,完成数据公共层建设,提供标准化的、共享的、数据服务能力,降低成本等。9.1 体系架构图9.2 名词术语数据域:指面向业务分析,将业务过程或者维度进行抽象的集合。是要抽象提炼,并且长期维原创 2021-11-15 16:26:50 · 1967 阅读 · 0 评论 -
大数据之路—— 建模综述
八、数据模型篇—— 建模综述8.1 OLTP和OLAP讲解8.2 典型的数据仓库建模方法论8.2.1 ER模型8.2.2 维度模型 Kimball8.2.3 Data Vault模型8.2.4 Anchor模型8.3 数据模型实践数据建模就是数据组织和存储档案,强调从业务、数据存取和使用角度存储数据。数据模型十分重要,好处有:性能。能快速查询想要的数据,减少数据的I/O吞吐成本。减少不必要的数据冗余,实现计算结果复用,降低计算和存储成本效率。改善用户使用数据体验,提高使用数据效率质量。改善原创 2021-11-15 16:22:57 · 2199 阅读 · 0 评论 -
大数据之路——数据挖掘
七、数据技术篇—— 数据挖掘7.1 数据挖掘算法平台7.2 数据挖掘中台体系7.2.1 挖掘数据中台7.2.2 挖掘算法中台7.3 数据挖掘案例7.3.1 用户画像7.3.2 反作弊数据挖掘技术与数据仓储和计算技术发展相辅相成,挖掘有效数据信息企业级数据挖掘包含两个要素:面向计算器学习算法的并行计算框架与算法平台;面向企业级数据挖掘的算法资产管理体系。7.1 数据挖掘算法平台汇集了大量优质的分布式算法,包括数据处理、特征工程、机器学习算法等,可高效地完成海量、亿级维度数据的复杂计算(海量原创 2021-11-12 20:40:24 · 1563 阅读 · 0 评论 -
大数据之路—— 数据服务
六、数据技术篇—— 数据服务6.1 架构演进6.2 技术架构@6.3 最佳实践@6.3.1 性能6.3.2 稳定性6.1 架构演进DWSOA由需求驱动,一个需求开发几个接口,编写接口文档,开放给业务方调用。缺点:接口力度粗,灵活度低,扩展性差,复用率低,开发效率低OpenAPI数据按照统计粒度聚合,同样维度的数据形成一张逻辑表,能有效收敛接口数量。SmartDQOpenAPI接口变多,且带来大量对象关系映射的维护工作量。这里再抽象一层,用DSL(Domain Specific L原创 2021-11-12 15:00:00 · 1667 阅读 · 0 评论 -
大数据之路—— 实时技术
五、数据技术篇—— 实时技术5.1 简介5.2 流式技术架构@5.2.1 数据采集5.2.2 数据处理5.2.3 数据存储5.2.4 数据服务5.3 流式数据模型5.3.1 数据分层5.3.2 多流关联5.3.3 维表使用@5.4 大促挑战5.4.1 大促特征5.4.2 大促保障@5.1 简介流计算,业务希望能在第一时间拿到经过加工的数据,实时监控状态作出运营决策,引导业务往好的方向发展。特征:实效性高,延时可能到达毫秒级常驻任务,流式任务数据属于常驻进程任务,启动后会一直运行(数据源是无界原创 2021-11-11 19:36:52 · 2029 阅读 · 0 评论 -
大数据之路—— 离线数据开发
四、数据技术篇—— 离线数据开发4.1 数据开发平台4.1.1 统一计算平台@4.1.2 统一开发平台4.2 任务调度4.2.1 核心设计模型4.2.2 任务状态机模型@4.2.3 工作状态机模型4.2.4 调度引擎工作原理4.2.5 执行引擎逻辑架构图@4.2.6 调度系统的特点数据存储及计算、数据整合及管理体系4.1 数据开发平台了解需求 -> 模型设计 -> ETL开发 -> 测试 -> 发布上线 -> 日常运维 -> 任务下线4.1.1 统一计算平台@原创 2021-11-11 19:34:16 · 2022 阅读 · 0 评论 -
大数据之路——数据同步
三、数据技术篇—— 数据同步3.1 数据同步基础 @3.1.1 直连同步3.1.2 数据文件同步3.1.3 数据库日志解析同步3.2 数据仓库同步方式3.2.1 批量数据同步3.2.2 实时数据同步3.3 同步遇到的问题3.3.1 分库分表3.3.2 增量全量同步的合并@3.3.3 数据漂移的处理 @有多种不同应用场景:主数据库和备份数据库之间的数据备份,主系统和子系统的数据更新,不用地域、数据库类型的数据传输交换3.1 数据同步基础 @关系型数据库,结构化数据:MySQL、Oracle、DB2非关原创 2021-11-11 10:16:26 · 4666 阅读 · 0 评论 -
大数据之路——日志采集
二、数据技术篇—— 日志采集2.1 浏览器日志采集2.1.1 页面型的日志采集分类2.1.2 页面访问过程2.1.3 页面浏览日志采集流程@2.1.4 页面交互日志采集2.1.5 页面交互日志清洗和预处理2.2 无线客户端的日志采集2.2.1 页面事件2.2.2 控件点击事件2.2.3 特殊场景2.2.4 H5 & Native日志统一 @2.2.5 日志传输2.3 日志采集的挑战2.3.1 日志分流和定制处理2.3.2 大促保障 @日志本身不是日志采集的目的,服务于基于日志的后续应用,才是正确的原创 2021-11-10 14:13:56 · 2411 阅读 · 0 评论 -
阿里大数据之路 总述
大数据之路一、总述数据有序、有结构地分类和存储,从而产生价值。 实时:数据量大,要实时、准确 离线:采集、存储、计算数据模型、数据研发、数据质量和运维保障工作难点:高效的数据模型和体系,数据易用,避免重复建设和不一致性,数据的规范性高效的数据开发工具,数据质量保障管理和控制存储和计算消耗数据服务的稳定和性能数据体系:1. 数据采集日志采集体系:Web端日志采集技术APP端日志采集技术各个场景的埋点数据传输体系:数据传输包括增量数据传输、日志数据传输支持实原创 2021-11-10 14:11:09 · 1687 阅读 · 0 评论