数据仓库笔记 —— LC

大大大大橙子呀

已于 2024-06-17 17:28:26 修改

阅读量133

点赞数 3

分类专栏：学习笔记数据仓库文章标签：数据仓库笔记 spark

于 2024-06-17 15:22:52 首次发布

本文链接：https://blog.csdn.net/hades_C/article/details/139744770

版权

5 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

第1章数据仓库概念

数据仓库（ Data Warehouse ），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。

数据仓库的输入数据通常包括：业务数据、用户行为数据和爬虫数据等

业务数据：就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中，需要和网站后台数据库进行增删改查交互，产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。

用户行为数据：用户在使用产品过程中，通过埋点收集与客户端产品交互过程中产生的数据，并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。

爬虫数据：通常是通过技术手段获取其他公司网站的数据。

ODS（原始数据层）：备份

DIM（公共维度层）：存储维度表数据

DWD（明细数据层）：数据清洗、脱敏

DWS（汇总数据层）：聚合

ADS（数据应用层）：统计

流程：数据输入（业务数据等）——数据分析（Data Warehouse）——数据输出（可视化报表、用户画像）

使用Nginx将数据发到Springboot服务器

业务到mysql

用户到logfile，然后通过flume采集，到Kafka然后到Hadoop

ads到MySQL进行可视化

在企业中通常会搭建一套生产集群和一套测试集群。生产集群运行生产任务，测试集群用于上线前代码编写和测试。

1）生产集群

（1）消耗内存的分开

（2）数据传输数据比较紧密的放在一起（Kafka 、Zookeeper）

（3）客户端尽量放在一到两台服务器上，方便外部访问

（4）有依赖关系的尽量放到同一台服务器（例如：Hive和mysql）

2）测试集群服务器规划

关注