Embedding技术之Graph Embedding

问老大

已于 2024-08-07 15:20:52 修改

阅读量699

点赞数 9

文章标签： embedding

于 2024-08-07 13:07:39 首次发布

本文链接：https://blog.csdn.net/m0_59704905/article/details/140988553

版权

Graph Embedding用于处理互联网中的图数据——社交网络、知识图谱、行为关系类型图数据。

DeepWalk 是一种用于学习图（网络）中节点的低维向量表示（即节点嵌入）的算法。

DeepWalk 的核心思想是利用随机游走（Random Walk）来生成节点的序列，这些序列类似于自然语言处理中的句子。然后，这些序列被用作输入到一个类似 Word2Vec 的模型中，以学习每个节点的向量表示。

DeepWalk可以被看作连接序列embedding和graph embedding之间的过渡方法。

随机游走：
- 对图中的每个节点进行多次固定长度的随机游走，产生一系列节点序列。
- 这些序列反映了节点之间的邻近性和连接模式。
序列建模：
- 使用 Word2Vec 中的 Skip-Gram 模型或其他相似的模型来处理这些序列。
- 目标是预测给定节点周围的邻居节点，从而学习到节点的向量表示。

Node2vec 通过调整随机游走跳转概率的方法，让 Graph Embedding 的结果在网络的同质性（Homophily）和结构性（Structural Equivalence）中进行权衡，可以进一步把不同的 Embedding 输入推荐模型，让推荐系统学习到不同的网络结构特点。

BFS：从一个起点出发，逐层扩展搜索，首先访问所有直接相邻的节点，然后再访问它们的邻居节点。

“结构性”指的是结构上相似的节点的 Embedding 应该尽量接近。

通过BFS可以生成更多周边结构的序列（凸显节点是中心节点、边缘节点、还是连接节点），从而使Embedding抓住更多的结构信息——相似结构的节点的Embedding更加相似。

DFS：从一个起点出发，尽可能深地搜索树的分支，直到无法前进为止，然后回溯并探索其他分支。

例子：在社交网络中，如果两个朋友有很多共同的朋友，那么从其中一个朋友出发，通过 DFS 游走很可能会多次跳转到另一个朋友那里，即使他们之间并没有直接连接。这样做的结果是，同一社区内的节点将更频繁地出现在同一个游走序列中。

EGES是一种由阿里巴巴提出并应用于其电子商务推荐系统的图嵌入技术。EGES的主要目的是为了克服传统推荐系统中遇到的几个关键问题，如扩展性、数据稀疏性和冷启动问题。其基本思想是Embedding过程中引入带权重的补充信息（Side Information），从而解决冷启动的问题。

图嵌入：
- 基础图嵌入：基于用户行为数据构建图，例如用户浏览记录、购买记录等，生成商品节点的初始嵌入表示。
补充信息嵌入：
- 特征编码：将补充信息转换为数值表示，例如使用独热编码表示类别信息，或者直接使用数值表示价格等。
- 特征融合：将商品的基础嵌入表示与补充信息的数值表示结合起来，形成更丰富的商品表示。
综合嵌入：
- 加权融合：为不同的补充信息分配不同的权重，这可以根据重要性或实验效果进行调整。
- 联合训练：在训练图嵌入模型时，同时考虑用户行为数据和补充信息，通过优化目标函数来学习综合嵌入。