(02)离线数仓

本文探讨了大数据离线数仓的框架版本选型,推荐了Apache的稳定版本,并对比了物理机与云主机的优缺点。在集群资源规划中,强调了根据业务需求确定集群规模,并考虑数据压缩等因素。此外,还提到了数仓分层对资源的影响。
摘要由CSDN通过智能技术生成

前言-

之前写过一篇关于离线数仓的文档,有个开头,因为工作原因,没有接上,接下来让我好好把这些文章整理一下,结合我对数仓的学习

1.框架版本选型

1 )如何选择 Apache/CDH/HDP 版本?
1 Apache 运维麻烦,组件间兼容性需要自己调研 。(一般大厂使用,技
术实力雄厚,有专业的运维人员) 建议使用
2 CDH :国内使用最多的版本,但 CM不开源
3 HDP :开源,可以进行二次开发,但是 没有 CDH 稳定,国内使用较少
 
1 Apache 框架版本
产品
版本
 
注意事项: 框架选型尽量不要
选择最新的框架,选择最新框
架半年前左右的稳定版。
2.服务器的选型
服务器选择 物理机 还是 云主机
1 )物理机:
128G 内 存, 20 核物理 CPU 40 线程, 8THDD 2TSSD 硬 盘,戴尔品牌
单台报价 4W 出头 一般物理机寿命 5 年左右。
需要有 专业的运维人员,平均一个月 1 万。电费也是不少的开销。
2 )云主机:
云主机 :以阿里云为例,差不多相同配置, 每年 5W
很多运维工作都 由阿里云完成 ,运维相对较轻松
3 )企业选择
金融有钱公司 和阿里没有直接冲突的公司选择阿里云
中小公司、 为了融资上市 ,选择阿里云,拉倒融资后买物理机。
长期打算 ,资金比较足,选择物理机。
 
3.集群资源规划设计
 
集群规模
1 )如何确认集群规模?(假设:每台服务器 8T 磁盘, 128G 内存)
1 )每天日活跃用户 100 万,每人一天平均 100 条: 100 *100 =1 亿条
3 )半年内不扩容服务器来算: 100G*180 = 18T
4 )保存 3 副本: 18T*3=54T
5 )预留 20%~30%Buf= 54T/0.7=77T
6 )算到这: 8T*10 台服务器
 
 
2 )如果考虑数仓分层?数据采用压缩?需要重新再计算
 
 
 
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据开发工程师-宋权

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值