陈宏智:字节跳动自研万亿级图数据库ByteGraph及其应用与挑战

本文介绍了字节跳动自研的万亿级图数据库ByteGraph,对比了图数据库与关系数据库,阐述了适用场景、数据模型、查询语言、架构实现及面临的关键问题。ByteGraph在社交、风控等领域有广泛应用,采用有向属性图建模,支持Gremlin查询,提供高可用和分布式解决方案。
摘要由CSDN通过智能技术生成

file


导读: 作为一种基础的数据结构,图数据的应用场景无处不在,如社交、风控、搜广推、生物信息学中的蛋白质分析等。如何高效地对海量的图数据进行存储、查询、计算及分析,是当前业界热门的方向。本文将介绍字节跳动自研的图数据库ByteGraph及其在字节内部的应用和挑战。

本文将围绕以下五点展开:

  • 了解图数据库
  • 适用场景介绍举例
  • 数据模型和查询语言
  • ByteGraph架构与实现
  • 关键问题分析
  • -

    01 了解图数据库

目前,字节内部有如下表三款自研的图数据产品。

file

1. 对比图数据库与关系数据库

图模型的基本元素包括点、边和属性。举例:张三的好友所在的公司有多少名员工?传统关系型数据库需要多表join,而图作为半结构化数据,在图上进行遍历和属性的过滤会更加高效。

2. 什么是图数据库?

近五年来,图数据库在领域内热度上升趋势非常明显,各个大厂与开源社区都推出了自己的图数据库。用户规模比较大、有一定影响力的查询语言包括Cypher、Apache开源项目的Gremlin等。从集群规模来看,过往有单机数据库,现在大多图数据库都具备分布式能力,这就需要考虑数据的防丢失问题、主副本之间的一致性、多台机器数据上的shard问题。

部分图数据库把图数据库与图计算引擎二者合并在一起,目前字节内部采用的暂时分离的两套系统。

--

02 适用场景介绍举例

1. ByteGraph适用的业务数据模型

ByteGraph初始立项是在2018年,主要目的是对头条的用户行为及好友关系进行存储来替换Mysql;2019年6月承接对抖音用户关系的数据存储任务,接着在字节内部各种微服务重承接了相关业务。

file

2. 已上线业务场景分类

目前有1.5万台物理机,服务于600+业务集群。

file

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值