大数据图数据库之数据分片

最新推荐文章于 2024-09-06 22:26:28 发布

张俊林博客

最新推荐文章于 2024-09-06 22:26:28 发布

阅读量9.6k

点赞数 3

分类专栏：大数据文章标签：大数据系统架构存储图数据库

本文链接：https://blog.csdn.net/malefactor/article/details/39428953

版权

本文探讨了大数据图数据库在分布式环境下的数据分片问题，重点关注切边法和切点法两种策略。切边法虽然简单，但会导致较高的存储和通信开销，而切点法能有效减少边的通信，但需解决数据一致性问题。在实际应用中，简单的随机均分法常被采用，尽管效率较低，但实现快速。选择切分算法需综合考虑负载均衡、通信量和实施成本。

摘要由CSDN通过智能技术生成

节选自《大数据日知录：架构与算法》十四章，书籍目录在此

对于海量待挖掘数据，在分布式计算环境下，首先面临的问题就是如何将数据比较均匀地分配到不同的服务器上。对于非图数据来说，这个问题解决起来往往比较直观，因为记录之间独立无关联，所以对数据切分算法没有特别约束，只要机器负载尽可能均衡即可。由于图数据记录之间的强耦合性，如果数据分片不合理，不仅会造成机器之间负载不均衡，还会大量增加机器之间的网络通信（见图14-5），再考虑到图挖掘算法往往具有多轮迭代运行的特性，这样会明显放大数据切片不合理的影响，严重拖慢系统整体的运行效率，所以合理切分图数据对于离线挖掘类型图应用的运行效率来说非常重要，但是这也是至今尚未得到很好解决的一个潜在问题。

对于图数据的切片来说，怎样才是一个合理或者是好的切片方式？其判断标准应该是什么？就像上面的例子所示，衡量图数据切片是否合理主要考虑两个因素：机器负载均衡以及网络通信总量。如果单独考虑机器负载均衡，那么最好是将图数据尽可能平均地分配到各个服务器上，但是这样不能保证网络通信总量是尽可能少的（参考图14-5右端切割方式，负载比较均衡，但是网络通信较多）；如果单独考虑网络通