大数据平台升级

背景:平台性能瓶颈,内存32G

做通做对 - 做大做深 - 做精做好

阶段一:做通做对

阶段意义:对方案的有效性与合理性进行验证探索。一般资源很少,如果顺利解决了核心问题,那系统将初具业务价值

阶段二:做大做深

阶段意义:开始在初版的基础上,去做边界的探索。通过接入更多的场景,更大范围的解决业务问题,来打磨方案,拓宽能力边界并摸索沉淀下最优实践。

阶段三:做精做好

阶段意义:这是做减法和重构的过程,通过前面的探索,清晰的定义下系统的边界,并对交互和性能等方面做更深的耕耘。

数据流向图

定位和目标

旨在提供数据端到端实时处理能力(毫秒级/秒级/分钟级延迟),可以对接多数据源进行实时数据抽取,可以为多数据应用场景提供实时数据消费。让实时数据应用开发门槛更低、迭代更快、质量更好、运行更稳、运维更简、能力更强,为实现数据驱动公司发展打下坚实基础!

整体设计

  1. 数据应用:是否考虑典型业务场景?(数据驱动场景,数据分析场景,数据交换场景)

  2. 数据服务:数据挖掘,数据可视化,日常管理运营

  3. 数据存储:数仓建设模型选型与搭建,数据分类,数据存储模式(HDFS)

  4. 数据加工:内部数据(flink),外部数据(多为离线场景,spark?)

  5. 数据采集:内部数据(flinkcdc+kafka),外部数据(爬虫?接口?)

  6. 数据源:结构化数据,日志数据,其他数据形式(excel?)

具体问题和思路

  1. 功能考量

    1. 流式处理平台和计算服务平台就形成了计算闭环

    2. ETL复杂逻辑场景的处理

    3. 高TPS查询场景:历史、实时数据分开处理与合并

  2. 质量考量

    1. 从技术架构层面保证数据质量

  3. 稳定考量

    1. 高可用HA:整个实时链路都应该选取高可用组件,确保理论上整体高可用;在数据关键链路上支持数据备份和重演机制;在业务关键链路上支持双跑融合机制

    2. SLA保障:支持动态扩容和数据处理流程自动漂移

    3. 监控预警:集群设施层面,物理层面,数据逻辑层面的多方面监控预警能力

    4. 自动运维:能够捕捉并存档缺失数据和处理异常,并具备定期自动重试机制修复问题数据

    5. 上游元数据变更抗性:兼容性元数据变更,自动处理

  4. 成本考量

    1. 人力成本:降低开发门槛

    2. 资源成本:支持动态资源利用降低静态资源占用造成的资源浪费

    3. 运维成本:支持自动运维/高可用/弹性机制降低运维成本

    4. 试错成本:支持敏捷开发/快速迭代降低试错成本

  5. 敏捷考量

    1. 配置化,SQL化

  6. 管理考量

    1. 元数据管理和数据安全管理

数据处理:实时数据和历史数据分离(高TPS要求的场景)

监控系统:搭建大数据监控体系,输出《大数据监控管理规范》

数据挖掘:

数据分析:

  1. 配置WEB数据查询平台(参考开源的项目),通过自编写SQL的形式由各业务/部门查询常用数据及指标。

    1. 优点:

      1. 通过角色权限分配,确保数据查询权限。

      2. 为各部门提供简易数仓,并提供数仓结构图,简化ETL过程,部分需求可下放至数据分析部门。

      3. 各部门各根据自身需要编写简单SQL去查询、下载数据,以供日常数据分析汇报使用,较少数据部门取数需求。

      4. 所有的基础数据及业务宽表由数据部门提供,保证数据产出的一致性。

      5. 基于该平台提供的简单可视化工具,做一些重要业务的预警机制(sql)

    2. 缺点:

      1. 各部门/业务人员需要了解简单的SQL语法

      2. 数仓建设需要规范化,需要研究通用数仓模型,以便后续更好地维护各业务数仓体系

      3. 需要提供规范化的SQL编写标准

      4. 大量的查询需求进来时,会造成资源紧张,需做好资源监控及预警机制

混合云

云上数仓:提供稳定高可用数据服务

云下计算存储:数据同步、实时计算、元数据存储

平台模块精细化管理

  1. 数据服务模块

  2. 离线计算模块

  3. 实时计算模块

  4. 数据同步模块

  5. 数据存储模块

当前平台不足

  1. 受限于虚拟机存在性能瓶颈:(1) 内存单机只能32G (2)虚拟机无法使用AVX指令集

  2. 缺乏一套数据开发IDE来管理整个数据开发环节

  3. 大数据组件开发要求高,如Flink代码开发,Debezium\DataX\Canal\FlinkCDC\FlinkX使用

  4. 需要维护两套计算模型批计算和流计算,难以上手开发,需要提供一套流批统一的SQL

  5. 缺乏公司层面的元数据体系规划,同一条数据实时和离线难以复用计算,每次开发任务都要各种梳理

解决方案

  1. 配置升级:采购物理机,单机内存可达256G,可以指令集加速计算,发挥向量化引擎优势

  2. 统一集群:打通云上云下,cdh与DataWorks开发工具集成一体,AliCloud和IDC混合部署,提高资源利用率

  3. 降低开发门槛

    1. 推广FlinkCDC统一数据集成方式

    2. 探索并应于FlinkSql,实现流批统一的SQL

  4. 全面管理:建设数管平台,结合数据治理,做好元数据管理

时效、易用、安全可靠和降本增效

  1. 时效

    1. FlinkCDC + Kafka 实现元数据实时入仓

  2. 易用

    1. 一站式开发

    2. 流批统一SQL

  3. 安全可靠

    1. 角色权限管理,表级别授权

    2. 操作日志审计

    3. 容灾管理、数据热备

  4. 降本增效

    1. 固定资源 + 弹性资源混合部署架构

      1. 物理机服务器:固定任务负载固定

      2. 阿里云+虚拟机:峰值任务弹性伸缩

拓扑图

待补充:大数据平台v2.0拓扑图,硬件规划

大数据平台v1.0拓扑图

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据开发工程师-宋权

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值