浅析大图数据研究背景、数据查询特点及优化

本文探讨了大图数据存储的挑战,如内外存交互和分布式计算,并重点介绍了优化基本查询、计算任务负载平衡和子图挖掘的方法。涉及技术包括数据特征利用、索引优化、分布式计算负载均衡等,以及如何应对DFS优化和深度搜索算法在大图场景中的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

图是一种特殊的数据结构。可以很好地用来存储

大图数据问题

1.大图数据难以存储

  • 如果采用内外存储,会涉及到磁盘IO,效率比较低
  • 如果分布式存储,会有一定的网络开销

2.大图数据查询计算需要迭代

  • 大图数据中,如果存在数据倾斜,关联边比较多的点计算开销是非常大的,远远大于关联边比较少的点,提前完成计算的点需要等待还没有完成计算的点,例如社交网络中明星和普通用户。

3.大图数据安全可用

  • 如果将大图数据的存储寄托给云服务商,那么云服务商返回的也是不可靠的。

大图数据查询(基本查询)

  • 距离类查询
  • 软件剽窃检测
  • 检索类查询:对某人某企业相关的企业,需要注意的是,这种查询不只是需要输入结点的相关点,还需要返回节点之间的关系
  • 子图挖掘类查询

现在对图数据查询没有统一的定义,但是上面几类查询几乎涵盖了大部分的图数据查询。

解决思路

1.针对基本查询的优化

  • 利用数据特征:分治算法、索引优化
  • 子查询分解与共享:查询分解、相似算子共享
  • 利用算法特性:冗余计算分析、算法特征挖掘、数据结构设计

2.计算任务优化

  • 分布式计算:负载均衡、图分配、计算任务分配
  • 内外寸交互:查询有界性、图压缩算法
  • 系统优化:缓存优化、任务调度

相关

  • 针对DFS的优化,深度搜索是O(n)时间复杂度,但是在大图背景下,还是尽可能搞优化
  • 基于深度搜索的分支算法
    在这里插入图片描述

综合来讲,就是根据结点之间能否构成有向无环图,来判定这两个结点是否可以独立计算的

  • 子图挖掘查询—稠密子图发现
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 计算任务优化
    在这里插入图片描述
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值