尚硅谷车险离线数仓项目总结

光军233

于 2024-01-13 15:51:48 发布

阅读量1.8k

点赞数 33

文章标签： hadoop hive 大数据数据仓库 hdfs

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_18628605/article/details/135571410

版权

项目概述

本项目基于尚硅谷的车险离线数仓项目。以模拟生成的车险数据作为依托，包含数据的同步、数仓分层理论、维度建模理论、数仓工作流调度、数据结果展示等内容。本文是对该项目进行一个汇总型的总计，建议完成该项目后再来阅读本文。
在本文中，我们将简述该项目中所使用到的所使用到的技术栈，并对数仓建模相关的内容进行介绍。
因为该项目主要面向的是数仓建模，大数据相关技术栈的使用内容，因此不会涉及到较为复杂的sql内容，推荐各位大数据方向的小伙伴如果有练习sql的需要，可以使用牛客的在线练习，一些进阶内容和企业面试题目还是难度相对在线的。

技术栈

Hadoop/yarn：分布式计算的底层框架，hadoop包含hdfs、yarn、mapreduce。hdfs负责文件的存储，yarn负责资源管理，mapreduce负责计算。我们这里将Hadoop的mapreduce更改成spark，提高效率。
HDFS：作为底层集群的分布式文件系统，多台服务器可以通过访问hdfs上的文件实现分布式的计算。如果某些计算需要在集群上进行，则必须将文件放在hdfs上使得所有的节点都能够正常访问到对应的文件。
MySQL：用于存放hive数仓、dolphin scheduler、superset等工具的元数据管理| 原始数据来源| 最终ads层数据的落库。
hive数仓：作为数据仓库，分层存放各层次需求的数据，从ods层同步数据一直到ads层最终实际需求中的数据。通过HQL对数据进行检索和筛选。hive中的数据存放在hdfs中，元数据交托于MySQL进行管理。
在本项目中，我们使用hive on spark，即hive的执行引擎从效率较低的mapreduce转化成效

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。