Network Embedding 网络表示学习 与 神经网络嵌入

NE 的中心思想就是找到一种映射函数,该函数将网络中的每个节点转换为低维度的潜在表示

传统意义上的 Graph Embedding 被看成是一个降维的过程,而主要的方法包括主成分分析(PCA)和多维缩放(MDS)。所有的方法都可以理解成运用一个 n × k 的矩阵来表示原始的 n × m 矩阵,其中 k << n。

另一类流行的降维技术使用可从图中导出的矩阵的光谱特性(例如,特征向量)来嵌入图的节点。拉普拉斯特征映射(Laplacian eigenmaps)通过与其k个最小非平凡特征值相关联的特征向量表示图中的每个节点。

 

嵌入(embedding),即用连续向量表示离散变量的方法,像机器翻译中的词嵌入和分类变量中的实体嵌入,都是嵌入的成功应用。

嵌入(Embeddings)

在神经网络中,嵌入后的数据维度较低,它能将离散的序列映射为连续的向量。

神经网络嵌入的主要用途有三种:

  1. 在嵌入空间中找到最近邻。
  2. 作为有监督的机器学习模型的输入。
  3. 挖掘变量间的关系。
  4. 神经网络嵌入还克服了独热编码的局限性。

独热编码(One-Hot Encoding)的局限性

独热编码用于处理类别变量的最简单的嵌入方法,能够将不同的类别映射为不同的向量。独热编码保证了每一个取值只会使得一种状态处于“激活态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。

独热编码有两大缺陷:

1.当类别的数量很多时,特征空间会变得非常大。映射后的向量容易产生维数灾难。

2. “相似”的类别映射在嵌入空间后并不相邻。

第二个问题同样带来了很大的局限性:独热编码并没有让相似的类别在嵌入空间中相邻。在进行独热编码后,利用余弦相似度计算出的向量间的相似度均为0。

学习嵌入(Learning Embeddings)

通过在有监督的任务中使用神经网络学习嵌入,可以大大提高嵌入能力。权重是学习嵌入过程中的重要参数,起调节作用以最小化损失函数。

嵌入本身并不是那么有趣,它们只是一些向量。为了计算相似度,我们选择一本书,计算它与所有书目的点积。(如果我们的嵌入是标准化的,点积为向量之间的余弦距离从-1,即最不相似,到+1,即最相似。此外还可以使用欧几里德距离来测量相似度)。

神经网络嵌入能够将离散的数据表示为连续的低维向量,克服了传统编码方法的局限性,能查找最近邻,作为另一个模型的输入以及进行可视化,是处理离散变量的有效工具,也是深度学习的有效应用。

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值