离线数据仓库
文章平均质量分 89
离线数仓基础到项目实战
ChlinRei
。。。。。。
展开
-
数据仓库规范建设指南
稳定业务按照标准的数据流向进行开发,即ODS-> DWD-> DWS-> APP。非稳定业务或探索性需求,可以遵循ODS-> DWD->APP或者ODS-> DWD-> DWM-> APP 两个模型数据流。在保证了数据链路的合理性之后,也必须保证模型分层引用原则:需统一规定不同的数据的类型,严格按照规定的数据类型执行:宽表的冗余字段要确保:保证主题域内,指标口径一致,无歧义。通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生。新增数据,增量数据是上一次导出之后的新数据。原创 2022-12-08 08:00:00 · 462 阅读 · 0 评论 -
数据治理以及质量建设
数据治理以及质量建设的范围很广,包含数据本身的管理、数据安全、数据成本、元数据管理、数据建模等。为什么要做数据治理?数据治理的方式:规范治理、架构治理、元数据治理、安全治理。为什么要做数据治理建设?数据质量要求、数据质量管理流程:数据资产等级划分、数据加工过程卡点校验。数据处理风险监控原创 2022-11-29 08:00:00 · 854 阅读 · 0 评论 -
离线数据仓库建设
数据仓库的核心是展现层和提供优质的服务。ETL及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。数仓分层、数仓建模、维度建模模式、维度建模详解、维度建模过程、数仓建设实战、ETL过程原创 2022-11-24 08:00:00 · 537 阅读 · 0 评论 -
猿创征文|大数据bug笔记之利用Hudi将数据落地到HDFS
利用hudi落地数据到HDFS,报错详细:Cannot create hive connection jdbc:hive2://IP:10000Required field 'serverProtocolVersion' is unset! org.apache.hadoop.security.AccessControlException: Permission denied: user=hive, access=EXECUTE, inode="/tmp":root:supergroup:dr--r--r原创 2022-09-09 21:42:12 · 677 阅读 · 0 评论 -
猿创征文|大数据之离线数据处理总结+思维导图(全面总结)
大数据离线数据处理总结Linux常用命令Hadoopzookeeper分布式协调框架yarn资源调度框架mapreduce分布式离线计算引擎Scala语言spark分析计算引擎hive数据根系工具sqoop数据导入导出工具flume数据采集工具azkaban分布式任务调度工具综合项目离线数仓分析项目原创 2022-09-03 21:07:23 · 1290 阅读 · 0 评论 -
猿创征文|大数据之离线数仓各工具常用命令
近期学习大数据离线数仓,接触到了许多处理数据的应用及工具:Hadoop、hive、sqoop、azkaban、flume、datax、superset、zookeeper、Kafka、redis等,做项目需要开启节点、启动服务,结束关掉服务节点等操作,这里将我常用的进行总结,后期接触更多则继续在这里更新#离线数仓各工具常用命令及操作!原创 2022-09-01 23:05:34 · 507 阅读 · 0 评论 -
数据仓库基础
数据仓库基础数据仓库概念数仓特性数仓架构数据集市架构Inmon企业信息工厂架构kimball数据仓库架构混合型数据仓库架构为什么要数据仓库进行分层数仓常见术语解析数据集市数仓名词之间的关系指标与标签区别数据集市和数据仓库的关系数据仓库与数据库的区别原创 2022-08-22 22:37:15 · 683 阅读 · 0 评论