文章目录
质疑项目
云上数据仓库解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse
实时数仓架构
数据仓库的输入数据源和输出系统分别是什么?
输入:用户行为数据,业务数据,爬虫(灰色地带)
输出:报表系统 (用户画像,推荐系统-如果不是985 211建议不要学)
高数,线性代数,概率(考过研究生)
- 框架版本选型
Apache:开源,免费,需要自己解决兼容性问题; 大厂比较有实力的公司
hadoop3.1.3 spark2.4.5 hive3.1.0 编译2天
CDH:不开源,不能编译源码;收费(7.0以后)
5.12 5.16 6.2.0 6.3.0用的比较多 =》 CDH市场上最多;大家也知道要收费
java程序员在用
HDP:可以重新编译源码,已经被CDH收购了
CDP:(7.0以后) 一个节点10000美金 6万 100台
建议公司,赶紧备用一套Apache;
服务器选型
1.服务器使用物理机还是云主机?
(1)物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,单台报价4W出头,惠普品牌。 一般物理机寿命5年左右。
(2)云主机,以阿里云为例,差不多相同配置,每年5W
2.运维成本考虑:
(1)物理机:需要有专业的运维人员(1万*13)、电费(商业用户)、安装空调
(2)云主机:很多运维工作都由阿里云已经完成,运维相对较轻松
3.企业选择
金融公司(着急),和阿里没有直接冲突的公司,一般选择阿里云
小公司,需要融资上市的,先用阿里云搭建一个项目;
如果能拉到融资,后续会买物理机,如果拉不到,一句凉凉!
中型上市公司,传统行业的公司;资金比较充足,有长期打算的,运维技术实力比较强,选择物理机
集群规模
三年的数据都会保存吗?
生产环境有的公司
1.保留半年
2.保存1年
3.保留2年
4.保存3年
非保留的数据,不是删除,只是永久备份
公司稍微有点钱的话,保留数据。他会把数据备份
根据数据规模搭建集群
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|
nn | nn | dn | dn | dn | dn | dn | dn | dn | dn |
rm | rm | nm | nm | nm | nm | nm | nm | ||
nm | nm | ||||||||
zk | zk | zk | |||||||
kafka | kafka | kafka | |||||||
hbase | hbase | hbase | |||||||
hive | hive | ||||||||
mysql | mysql | ||||||||
spark | spark | ||||||||
es | es |
用户行为数据中,哪张表的数量最多,是多少?
商品列表,商品详情,点击,广告,点赞,评论,收藏,故障,启动,通知,后台活跃
100g => 点击?
平均值 100g/11 = 大约10g
点击表的数量是平均值的2-3倍
业务数据中,哪张表的数据最多,是多少?
订单,用户,支付,订单详情,商品表,三级分类,二级分类,一级分类
30张
平均值:总数量1g/30张 = 34m
订单详情:100m