大数据面试大保健(8) | 项目架构

质疑项目

云上数据仓库解决方案:https://www.aliyun.com/solution/datavexpo/datawarehouse
在这里插入图片描述
实时数仓架构
在这里插入图片描述

数据仓库的输入数据源和输出系统分别是什么?

 输入:用户行为数据,业务数据,爬虫(灰色地带)
 输出:报表系统  (用户画像,推荐系统-如果不是985 211建议不要学) 
      高数,线性代数,概率(考过研究生)
  • 框架版本选型
Apache:开源,免费,需要自己解决兼容性问题;  大厂比较有实力的公司
hadoop3.1.3 spark2.4.5 hive3.1.0   编译2天

CDH:不开源,不能编译源码;收费(7.0以后)   
5.12 5.16 6.2.0 6.3.0用的比较多 =》 CDH市场上最多;大家也知道要收费
java程序员在用

HDP:可以重新编译源码,已经被CDH收购了

CDP:(7.0以后)  一个节点10000美金  6100台  
建议公司,赶紧备用一套Apache;

服务器选型

1.服务器使用物理机还是云主机?

1)物理机:以128G内存,20核物理CPU,40线程,8THDD和2TSSD硬盘,单台报价4W出头,惠普品牌。 一般物理机寿命5年左右。
(2)云主机,以阿里云为例,差不多相同配置,每年5W

2.运维成本考虑:

1)物理机:需要有专业的运维人员(1*13)、电费(商业用户)、安装空调
(2)云主机:很多运维工作都由阿里云已经完成,运维相对较轻松

3.企业选择

金融公司(着急),和阿里没有直接冲突的公司,一般选择阿里云
小公司,需要融资上市的,先用阿里云搭建一个项目;
如果能拉到融资,后续会买物理机,如果拉不到,一句凉凉!
中型上市公司,传统行业的公司;资金比较充足,有长期打算的,运维技术实力比较强,选择物理机    

集群规模

在这里插入图片描述

三年的数据都会保存吗?

生产环境有的公司
 1.保留半年
 2.保存13.保留24.保存3年
 非保留的数据,不是删除,只是永久备份
 公司稍微有点钱的话,保留数据。他会把数据备份

根据数据规模搭建集群

12345678910
nnnndndndndndndndndn
rmrmnmnmnmnmnmnm
nmnm
zkzkzk
kafkakafkakafka
hbasehbasehbase
hivehive
mysqlmysql
sparkspark
eses

用户行为数据中,哪张表的数量最多,是多少?

商品列表,商品详情,点击,广告,点赞,评论,收藏,故障,启动,通知,后台活跃
100g => 点击?
平均值 100g/11 = 大约10g
点击表的数量是平均值的2-3

业务数据中,哪张表的数据最多,是多少?

订单,用户,支付,订单详情,商品表,三级分类,二级分类,一级分类
30张
平均值:总数量1g/30= 34m
订单详情:100m

大数据设计方案(重点)

https://blog.csdn.net/qq_46548855/article/details/108866241

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Knight_AL

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值