大数据平台升级

最新推荐文章于 2023-03-18 10:51:57 发布

大数据开发工程师-宋权

最新推荐文章于 2023-03-18 10:51:57 发布

阅读量582

点赞数

分类专栏： flink 文章标签： big data 数据挖掘

本文链接：https://blog.csdn.net/song_quan_/article/details/124672161

版权

26 篇文章 2 订阅

订阅专栏

背景：平台性能瓶颈，内存32G

做通做对 - 做大做深 - 做精做好

阶段一：做通做对

阶段意义：对方案的有效性与合理性进行验证探索。一般资源很少，如果顺利解决了核心问题，那系统将初具业务价值

阶段二：做大做深

阶段意义：开始在初版的基础上，去做边界的探索。通过接入更多的场景，更大范围的解决业务问题，来打磨方案，拓宽能力边界并摸索沉淀下最优实践。

阶段三：做精做好

阶段意义：这是做减法和重构的过程，通过前面的探索，清晰的定义下系统的边界，并对交互和性能等方面做更深的耕耘。

数据流向图

定位和目标

旨在提供数据端到端实时处理能力（毫秒级／秒级／分钟级延迟），可以对接多数据源进行实时数据抽取，可以为多数据应用场景提供实时数据消费。让实时数据应用开发门槛更低、迭代更快、质量更好、运行更稳、运维更简、能力更强，为实现数据驱动公司发展打下坚实基础！

整体设计

功能考量
1. 流式处理平台和计算服务平台就形成了计算闭环
2. ETL复杂逻辑场景的处理
3. 高TPS查询场景：历史、实时数据分开处理与合并
质量考量
1. 从技术架构层面保证数据质量
稳定考量
1. 高可用HA：整个实时链路都应该选取高可用组件，确保理论上整体高可用；在数据关键链路上支持数据备份和重演机制；在业务关键链路上支持双跑融合机制
2. SLA保障：支持动态扩容和数据处理流程自动漂移
3. 监控预警：集群设施层面，物理层面，数据逻辑层面的多方面监控预警能力
4. 自动运维：能够捕捉并存档缺失数据和处理异常，并具备定期自动重试机制修复问题数据
5. 上游元数据变更抗性：兼容性元数据变更，自动处理
成本考量
1. 人力成本：降低开发门槛
2. 资源成本：支持动态资源利用降低静态资源占用造成的资源浪费
3. 运维成本：支持自动运维／高可用／弹性机制降低运维成本
4. 试错成本：支持敏捷开发／快速迭代降低试错成本
敏捷考量
1. 配置化，SQL化
管理考量
1. 元数据管理和数据安全管理

数据处理：实时数据和历史数据分离（高TPS要求的场景）

监控系统：搭建大数据监控体系，输出《大数据监控管理规范》

数据挖掘：

数据分析：

混合云

云上数仓：提供稳定高可用数据服务

云下计算存储：数据同步、实时计算、元数据存储

平台模块精细化管理

当前平台不足

解决方案

时效、易用、安全可靠和降本增效

待补充：大数据平台v2.0拓扑图，硬件规划

大数据平台v1.0拓扑图

关注