Network Embedding 网络表示学习与神经网络嵌入

展希希鸿

于 2019-04-28 19:52:18 发布

阅读量992

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28266311/article/details/89642752

版权

机器学习专栏收录该内容

33 篇文章 6 订阅

订阅专栏

NE 的中心思想就是找到一种映射函数，该函数将网络中的每个节点转换为低维度的潜在表示。

传统意义上的 Graph Embedding 被看成是一个降维的过程，而主要的方法包括主成分分析（PCA）和多维缩放（MDS）。所有的方法都可以理解成运用一个 n × k 的矩阵来表示原始的 n × m 矩阵，其中 k << n。

另一类流行的降维技术使用可从图中导出的矩阵的光谱特性（例如，特征向量）来嵌入图的节点。拉普拉斯特征映射（Laplacian eigenmaps）通过与其k个最小非平凡特征值相关联的特征向量表示图中的每个节点。

嵌入（embedding），即用连续向量表示离散变量的方法，像机器翻译中的词嵌入和分类变量中的实体嵌入，都是嵌入的成功应用。

嵌入（Embeddings）

在神经网络中，嵌入后的数据维度较低，它能将离散的序列映射为连续的向量。

神经网络嵌入的主要用途有三种：

在嵌入空间中找到最近邻。
作为有监督的机器学习模型的输入。
挖掘变量间的关系。
神经网络嵌入还克服了独热编码的局限性。

独热编码（One-Hot Encoding）的局限性

独热编码用于处理类别变量的最简单的嵌入方法，能够将不同的类别映射为不同的向量。独热编码保证了每一个取值只会使得一种状态处于“激活态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。

独热编码有两大缺陷：

1.当类别的数量很多时，特征空间会变得非常大。映射后的向量容易产生维数灾难。

2. “相似”的类别映射在嵌入空间后并不相邻。

第二个问题同样带来了很大的局限性：独热编码并没有让相似的类别在嵌入空间中相邻。在进行独热编码后，利用余弦相似度计算出的向量间的相似度均为0。

学习嵌入（Learning Embeddings）

通过在有监督的任务中使用神经网络学习嵌入，可以大大提高嵌入能力。权重是学习嵌入过程中的重要参数，起调节作用以最小化损失函数。

嵌入本身并不是那么有趣，它们只是一些向量。为了计算相似度，我们选择一本书，计算它与所有书目的点积。(如果我们的嵌入是标准化的，点积为向量之间的余弦距离从-1，即最不相似，到+1，即最相似。此外还可以使用欧几里德距离来测量相似度)。

神经网络嵌入能够将离散的数据表示为连续的低维向量，克服了传统编码方法的局限性，能查找最近邻，作为另一个模型的输入以及进行可视化，是处理离散变量的有效工具，也是深度学习的有效应用。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。