【图神经网络】表示学习

  • 引言
    • 本文是学习刘忠雨老师所著的《深入浅出图神经网络》过程中的笔记和记录整理,最后会有参考文献标注对应章节和内容中可能出现的参考文献、博文出处。

表示学习

  • 表示
    • 通俗理解为特征
  • 表示学习
    • 自动地从数据中学习有效特征,并直接用于后续具体任务

需要回答的3个问题

  • 如何判断一个表示比另一个表示更好?
  • 如何取挖掘表示?
  • 使用什么样的目标去得到一个好的表示?

离散表示和分布式表示

离散表示

  • 独热编码
    • 假设所有对象之间都是相互独立的,因此不能表示出某些对象之间的关系(或者说相似度),导致丢失大量语义信息。
    • 很大可能是一个高维稀疏向量

分布式表示

  • 通过某种方式得到一个低维稠密向量来表示研究对象,例如用RGB表示颜色
  • 一方面能有效解决数据的稀疏问题,一方面能保留部分语义信息。

端到端学习

  • 以卷积神经网络用于图像分类任务为例,来解释端到端学习
    • 输入:原始图像,而不是传统机器学习中的特征
    • 输出:预测类别
    • 理解:卷积神经网络的前面部分可以认为是在进行表示学习(也就是提取特征),由于可以认为端到端学习是表示学习与具体任务的组合,但两者实际上是联合优化的。

基于重构损失的方法:自编码器

自编码器

  • 自编码器是一种表示学习模型,是以输入数据为参考的无监督学习模型,可以用于数据降维和特征提取。
  • 基本思想:将输入映射到某个特征空间,再从这个特征空间映射回输入空间进行重构
  • 结构
    • 编码器:从输入数据中提取特征
    • 解码器:基于提取的特征重构输入数据
    • 训练完成后,用编码器进行特征提取
  • 自编码器不需要额外的标签信息,它是通过不断最小化输入和输出之间的重构误差进行训练的。

正则自编码器

  • 欠完备编码器:编码器维度 < 输入维度
  • 过完备编码器:编码器维度 >= 输入维度
    • 如果不加限制,就学不到任何有用信息,变成了复制。所以,通常会对模型增加正则化的约束。
  • 去噪自编码器
    • 在原始输入的基础上加入一些噪声国伟输入,解码器需要重构出不加噪声的原始输入。
  • 稀疏自编码器
    • 在损失函数上加入正则项

变分自编码器

  • 可以用于生成新的样本
  • 本质:生成模型。

基于对比损失的方法:Word2vec

  • 思想
    • 用一个词的上下文去刻画这个词
  • CBow
    • 给定某个中心词的上下文,去预测该中心词
  • Skip-gram
    • 给定一个中心词,去预测上下文

关于深度学习

  • 这目录下的内容,是个人在学习本章内容的同时,认为不单单关系到本章内容的,在整个深度学习方面或者某些地方比较重要的点。因此摘出来,方便以后查找。

关于深度学习中的特征

  • 深度学习模型是层与层的堆叠,每一层都是可以训练的,它将输入的特征变换为更抽象的特征,位于低层的变得得到基础的特征,是构成高层抽象特征的基础。
  • 对于低层次的特征,更加通用;对于高层次的特征,与具体任务相关。
  • 针对上述特性的两个应用
    • 迁移学习
      • 将已经学习过的只是迁移到新的问题中去
    • 微调
      • 例如一些视觉相关任务,都是在ImageNet预训练模型,然后固定一些卷积层,不对它们进行梯度上的更新。因为它们提取的是通用的特征,只对高层的结构进行一些修改,比如改变输出层维度以适应不同类别数量的分类问题,然后用新的数据调整模型

参考文献

  1. 刘忠雨,李彦霖,周洋. 深入浅出图神经网络:GNN原理解析[M]. 北京:机械工业出版社,2020:65-79
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值