大数据项目软硬件选择

目录

一.技术选型

二.系统数据流程设计

三.框架版本选型

如何选择Apache/CDH/HDP版本

云服务选择

四. 服务器选型

物理机:

云主机: 

企业选择

五. 集群规模

1.如何确认集群规模

2.数仓分层 数据压缩

六. 集群资源规划

1. 生产环境

2. 测试环境


一.技术选型

        技术选型主要考虑因素: 数据量大小业务需求行业内经验技术成熟度开发维护成本总成本预算

           离线实时公用              离线                        实时                     不采用

  1. 数据采集传输: FlumeKafkaDataXMaxwell,Sqoop,Logstash
  2. 数据存储: MySqlHDFSHBaseRedis,MongoDB
  3. 数据计算: HiveSparkFlink,Strom,Tez
  4. 数据查询: Presto,Kylin,Impala,Druid,ClickHouse,Doris
  5. 数据可视化: Superset,Echarts,Sugar,QuickBI,DataV
  6. 任务调度: DolphinScheduler,Azkaban,Oozie,Airflow
  7. 集群监控: ZabbixPrometheus
  8. 元数据管理: Atlas
  9. 权限管理: Ranger,Sentry

二.系统数据流程设计

三.框架版本选型

  1. 如何选择Apache/CDH/HDP版本?

    1. Apache: 运维麻烦,组件间兼容性需要自己调研 (一般大厂使用,技术实力雄厚,有专业的运维人员) (建议使用)
    2. CDH: 国内使用最多的版本,但CM不开源,6.3.2版本已经收费,1个节点1万美金/年(收费之后,Apache使用量超过了CDH)
    3. HDP: 开源,可以进行二次开发,但是没有CDH稳定,国内使用较少
  2. 云服务选择

    1. 阿里云的EMR,MaxCompute,DataWorks
    2. 亚马逊云EMR
    3. 腾讯云EMR
    4. 华为云EMR

四. 服务器选型

服务器选择物理机还是云主机?

  1. 物理机:

    1. 128G内存20核物理CPU,40线程,8T机械磁盘(HDD)和2T固态磁盘(SSD),报价单台约4W-5W,一般物理机寿命5年左右
    2. 需要有专业的运维人员,平均1万/月,也有电费开销
  2. 云主机: 

    1. 云主机: 以阿里云为例,差不多相同配置,5W/年
    2. 很多运维工作都由阿里云完成,运维相对轻松
  3. 企业选择

    1. 金融有钱公司和阿里没有直接冲突的选择阿里云
    2. 中小公司为了融资上市,选择阿里云,拿到融资后买物理机
    3. 长期打算,资金比价充足,选择物理机

五. 集群规模

1.如何确认集群规模

        假设每台服务器8T磁盘,128G内存

        每天日活跃用户100万,每人每天平均100条: 100万 x 100条 = 1亿条

        每条日志1K左右,每天1亿条: 1亿 / 1024 / 1024 = 约100G

        计算带宽 100G数据传输白天8小时 得出传输平均速度4M每秒,峰值升百倍,三台服务器够抗

        半年内不扩容服务器来算: 100G x 180天 = 约18T

        原始数据保存副本3份(不算中间业务表,也没计算压缩,只看原始数据): 18T * 3 = 54T

        预留20% ~ 30%的空间:  54T / 0.7 = 约77T

        算到这里: 约 8T * 10台服务器

2.数仓分层 数据压缩

        如果数仓分四层 原始层-清洗层-预聚合层-指标层

        考虑数仓分层,每多一层数据量也会增加,清洗层与原始层数据接近1:1,预聚合层与原始层的比例比较小,一般看业务聚合指标,通常指标根据业务扩展增加,指标层占用磁盘大小不稳定,一般业务规模不大的不会超过原始层的数据量,这里用清洗层与原始层数据的比例为3:1,指标层的数据量相对于原始层可以忽略不计,采用数据压缩snappy压缩约3倍,如果只压缩原始数据和清洗层的数据,重新计算结果为

        (原始54T * 压缩0.3) + (清洗层54T * 压缩0.3) + 54T * 0.3  * 预聚合层0.33 = 约38T

预留20% ~ 30%的空间: 38T / 0.7 = 约54T

算到这里: 约8T * 7台服务器

        

        

六. 集群资源规划

1. 生产环境

2. 测试环境

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小钻风巡山

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值