阿里云离线数仓

最新推荐文章于 2022-04-18 17:07:00 发布

mileitutu

最新推荐文章于 2022-04-18 17:07:00 发布

阅读量535

点赞数 1

分类专栏：数据仓库文章标签：大数据

本文链接：https://blog.csdn.net/mileitutu/article/details/117661345

版权

第一章数仓概念

数仓定义（Data Warehouse）

为企业所有决策制定过程，提供所有系统数据支持的战略合辑
说白了，公司所有的数据都可以汇聚到数据仓库里
公司的数据来源
- 日志采集系统
- 业务系统数据库
- 爬虫系统等 
所有业务部门的数据都可以放入数仓，数据库就无法完成这样的功能

数仓的好处

可帮助企业改进业务流程，控制成本，提高产品质量

数仓能做什么

清洗，转义，分类，重组，合并，拆分，统计等

数仓输出到哪里

报表系统 → 用户画像 → 推荐系统 → 机器学习 → 风控系统

第二章项目需求及架构设计

项目需求分析

整个项目要做五件事儿
1. 采集埋点日志数据
	日志行为数据与业务数据如何区分？
	答：没有日志行为数据，网站可以正常工作，没有业务数据网站不能正常工作。比如，不去记录用户来到网站的
	行为，用户依然可以完成购买。但是没有价格等业务数据，用户无法支付，网站就无法工作。
	一般来说，日志数据是以文件形式存储的，业务数据是存储在Mysql数据库中的。
	
2. 采集业务数据库中的数据
	
3. 数仓的搭建（用户行为数仓、业务数仓）

4. 分析统计业务指标

5. 对结果进行可视化展示

项目框架

阿里云产品	简介	类比
DataHub	数据总线	Kafka + 各种服务接口
MaxCompute	大数据计算框架	Hadoop + Hive + 调度器
DataWorks	可视化MaxCompute的开发管理平台	目前没

最低0.47元/天解锁文章

mileitutu

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
阿里云离线数仓

第一章数仓概念数仓定义（Data Warehouse）为企业所有决策制定过程，提供所有系统数据支持的战略合辑说白了，公司所有的数据都可以汇聚到数据仓库里公司的数据来源- 日志采集系统- 业务系统数据库- 爬虫系统等所有业务部门的数据都可以放入数仓，数据库就无法完成这样的功能数仓的好处可帮助企业改进业务流程，控制成本，提高产品质量数仓能做什么清洗，转义，分类，重组，合并，拆分，统计等数仓输出到哪里报表系统 → 用户画像 → 推荐系统 → 机器学习 → 风控系统第二章
复制链接

扫一扫