embedx 是基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度召回模型和图与排序、图与召回的联合训练模型等。
embedx是腾讯 AI 领域开源协同项目,获得过开源协同优秀奖、微信最具技术价值文集奖等,经过近 3 年的迭代,已经趋向稳定和成熟,在设计和开发的过程中,参考了业界开源项目的大量经验,现将其开源反哺业界,希望该项目能持续的进行迭代。
项目链接请参考:https://github.com/Tencent/embedx
01
项目特点一: 效率高
大规模图引擎:我们设计并实现了支持十亿节点、千亿边的大规模图引擎,以 op 形式提供了包括 random walk、negative sampling 和 neighbor sampling 等多种分布式采样接口。通过层次化采样解决分布式负例采样一致性、拒绝采样解决动态随机游走效率低、partial sum解决异构的邻居采样等问题大幅的提升了分布式采样的效率。
高性能计算引擎:基于 deepx_core 实现神经网络计算,deepx_core 提供了能自动求导的静态图引擎,该引擎支持一百余个 op, 它具备大规模稀疏、高性能、跨平台等优点。目前 deepx_core