分布式如何解决大数据的存储与计算问题个人理解
-
分布式:如何解决大量数据的计算和存储问题的?
-
问题1:为什么不用MySQL存储和分析计算?
- 数据量大,MySQL存储不了
- 即使能存储,处理的性能也很差
- 数据的价值会随着时间的流逝而逐渐降低
- 离线架构:以一定时间为单位处理数据
- 今天处理昨天的数据,时效性比较慢【分钟及以上级别】
- 实时架构:以数据生成为单位处理数据
- 数据产生一条处理一条,时效性比较高【ms级别】
- 数据种类的多样化
-
问题2:如何解决数据大无法存储或者计算的问题?
- 分布式:分而治之
- 先分
- 计算处理
- 后合
- 定义:就是将多台机器的资源【集群】在逻辑上合并成==一个整体==,通过分布式的软件,提供分布式的服务
- 过程
- step1:有一个很大的任务:存储、计算
- step2:提交给分布式服务,分布式服务实现分的过程
- 将这个很大的任务拆分成若干个小的任务
- step3:分布式服务将若干个小的任务分配给多台机器共同执行,每台机器处理不同的小任务
- 分布式:分而治之
-