大数据面试大保健(8) | 项目架构

Knight_AL

已于 2023-03-20 20:46:41 修改

阅读量584

点赞数

分类专栏：大数据面试大保健文章标签：大数据

于 2020-10-02 22:31:22 首次发布

本文链接：https://blog.csdn.net/qq_46548855/article/details/108865712

版权

大数据面试大保健专栏收录该内容

13 篇文章 10 订阅

订阅专栏

文章目录

质疑项目
数据仓库的输入数据源和输出系统分别是什么？
服务器选型
集群规模
三年的数据都会保存吗？
用户行为数据中，哪张表的数量最多，是多少？
业务数据中，哪张表的数据最多，是多少？
大数据设计方案(重点)

质疑项目

云上数据仓库解决方案：https://www.aliyun.com/solution/datavexpo/datawarehouse
在这里插入图片描述
实时数仓架构

数据仓库的输入数据源和输出系统分别是什么？

 输入：用户行为数据，业务数据，爬虫(灰色地带)
 输出：报表系统  (用户画像,推荐系统-如果不是985 211建议不要学) 
      高数，线性代数，概率(考过研究生)

框架版本选型

Apache：开源，免费，需要自己解决兼容性问题；  大厂比较有实力的公司
hadoop3.1.3 spark2.4.5 hive3.1.0   编译2天

CDH：不开源，不能编译源码；收费(7.0以后)   
5.12 5.16 6.2.0 6.3.0用的比较多 =》 CDH市场上最多；大家也知道要收费
java程序员在用

HDP：可以重新编译源码，已经被CDH收购了

CDP：(7.0以后)  一个节点10000美金  6万  100台  
建议公司，赶紧备用一套Apache；

服务器选型

1.服务器使用物理机还是云主机？

（1）物理机：以128G内存，20核物理CPU，40线程，8THDD和2TSSD硬盘，单台报价4W出头，惠普品牌。 一般物理机寿命5年左右。
（2）云主机，以阿里云为例，差不多相同配置，每年5W

2.运维成本考虑：

（1）物理机：需要有专业的运维人员（1万*13）、电费（商业用户）、安装空调
（2）云主机：很多运维工作都由阿里云已经完成，运维相对较轻松

3.企业选择

金融公司(着急)，和阿里没有直接冲突的公司，一般选择阿里云
小公司，需要融资上市的，先用阿里云搭建一个项目；
如果能拉到融资，后续会买物理机，如果拉不到，一句凉凉！
中型上市公司，传统行业的公司；资金比较充足，有长期打算的，运维技术实力比较强，选择物理机

集群规模

在这里插入图片描述

三年的数据都会保存吗？

生产环境有的公司
 1.保留半年
 2.保存1年
 3.保留2年
 4.保存3年
 非保留的数据，不是删除，只是永久备份
 公司稍微有点钱的话，保留数据。他会把数据备份

根据数据规模搭建集群

1	2	3	4	5	6	7	8	9	10
nn	nn	dn	dn	dn	dn	dn	dn	dn	dn
		rm	rm	nm	nm	nm	nm	nm	nm
		nm	nm
							zk	zk	zk
							kafka	kafka	kafka
		hbase	hbase	hbase
hive	hive
mysql	mysql
spark	spark
					es	es

用户行为数据中，哪张表的数量最多，是多少？

商品列表，商品详情，点击，广告，点赞，评论，收藏，故障，启动，通知，后台活跃
100g => 点击？
平均值 100g/11 = 大约10g
点击表的数量是平均值的2-3倍

业务数据中，哪张表的数据最多，是多少？

订单，用户，支付，订单详情，商品表，三级分类，二级分类，一级分类
30张
平均值：总数量1g/30张 = 34m
订单详情：100m

大数据设计方案(重点)

https://blog.csdn.net/qq_46548855/article/details/108866241

Knight_AL

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据面试大保健(8) | 项目架构

文章目录质疑项目数据仓库的输入数据源和输出系统分别是什么？服务器选型集群规模三年的数据都会保存吗？用户行为数据中，哪张表的数量最多，是多少？业务数据中，哪张表的数据最多，是多少？大数据设计方案(重点)质疑项目云上数据仓库解决方案：https://www.aliyun.com/solution/datavexpo/datawarehouse实时数仓架构数据仓库的输入数据源和输出系统分别是什么？输入：用户行为数据，业务数据，爬虫(灰色地带) 输出：报表系统 (用户画像,推荐系统-如果不是98
复制链接

扫一扫