阿里云离线数仓

第一章 数仓概念

数仓定义(Data Warehouse)

为企业所有决策制定过程,提供所有系统数据支持的战略合辑
说白了,公司所有的数据都可以汇聚到数据仓库里
公司的数据来源
- 日志采集系统
- 业务系统数据库
- 爬虫系统等 
所有业务部门的数据都可以放入数仓,数据库就无法完成这样的功能

数仓的好处

可帮助企业改进业务流程,控制成本,提高产品质量

数仓能做什么

清洗,转义,分类,重组,合并,拆分,统计等

数仓输出到哪里

报表系统 → 用户画像 → 推荐系统 → 机器学习 → 风控系统

第二章 项目需求及架构设计

项目需求分析

整个项目要做五件事儿
1. 采集埋点日志数据
	日志行为数据与业务数据如何区分?
	答:没有日志行为数据,网站可以正常工作,没有业务数据网站不能正常工作。比如,不去记录用户来到网站的
	行为,用户依然可以完成购买。但是没有价格等业务数据,用户无法支付,网站就无法工作。
	一般来说,日志数据是以文件形式存储的,业务数据是存储在Mysql数据库中的。
	
2. 采集业务数据库中的数据
	
3. 数仓的搭建(用户行为数仓、业务数仓)

4. 分析统计业务指标

5. 对结果进行可视化展示

项目框架

阿里云产品 简介 类比
DataHub 数据总线 Kafka + 各种服务接口
MaxCompute 大数据计算框架 Hadoop + Hive + 调度器
DataWorks 可视化MaxCompute的开发管理平台 目前没
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值