文献阅读(5)CCF201803网络表示学习专题

本文是对中国计算机学会通讯(CCF)在2018年3月的网络表示学习专题的简单总结,原文章已上传至个人资源,如有侵权即刻删除。

朋友们,我们在github创建了一个图学习笔记库,总结了相关文章的论文、代码和我个人的中文笔记,能够帮助大家更加便捷地找到对应论文,欢迎star~

Chinese-Reading-Notes-of-Graph-Learning

更多相关文章,请移步:文献阅读总结:网络表示学习/图学习


《网络表征学习前沿与实践》

作者:崔鹏
关键词:网络表征学习;大规模网络分析

本身数据规模和算力是以相同的指数级在增长,但由于数据规模越大,其内部结构就越复杂,导致算力的增长无法跟上数据规模的复杂性扩大。也正是因其规模越大越复杂,所以任何复杂和深度的算法都难以实际应用,这需要庞大的计算量,而算力难以为继。

大规模网络数据中存在着千丝万缕的联系,在计算某一点时,其他点对其的影响是难以忽视的。而如果沿着联系不断计算,与该点相连的点又连接着更远的点,最终甚至需要遍历整个网络。如果用分布式计算来处理这种遍历,又要考虑这种错综复杂的关联性,计算设备之间的通信就会非常频繁,造成难以承受的通信代价。

对网络而言,必然存在着某种相关性,让数据结合在一起。如果能够直接研究这种相关性,就可以将网络中的各种联系清晰化和数据化,从而只需要简单的计算就能够理清各种关联。考虑如何将网络中的数据表示到向量空间中,就出现了网络表示/嵌入学习。


《网络表征学习中的基本问题初探》

作者:王啸
关键词:网络表征学习;网络嵌入

传统网络拓扑的表征形式有三类弊端:评估一个节点就要考虑邻居节点,最终甚至遍历全网;节点之间关联过多,给并行和分布式带来极大通信负担;目前机器学习主要针对独立性数据,对彼此关联的数据难以处理。

从而产生网络表征学习将网络节点表示为低维空间的有效向量,从而摆脱邻接矩阵的约束。这种表示需要去除冗余信息,保留结构信息。该学习有两个目标:一是学习到的表征可以重构网络结构;二是可以进行有效推断,如果只关注一的话可能造成对重现结构的过拟合现象。

图嵌入和网络表示很相似,都关注第一个目标。不同点是图嵌入可以通过计算数据间的相似度确定其准确关系,而网络表示除研究节点和边外,还需要考虑网络的高阶结构和性质。

网络表征学习方法,根据不同场景可分三种:
结构与性质保持的方法,它是最基础的,后两种都是基于其拓展。除关注拓扑结构外,还关注高阶结构,重视节点的高阶相似度。其中,二阶结构考虑节点间相似度,两节点无边但和第三点都有边,就可以认为相似;上下文结构指一次随机游走序列中出现的节点;社区结构不同于高阶结构,反应一个社区中的节点相似度。性质上如非对称传递性(a->b->c,那么a就有可能直连c,但如果没有反向连接,c就不可能直连a)、结构平衡性等。

融合伴随信息的方法,考虑节点上的信息。节点的标签可引入判别性信息,内容包含丰富信息,类别体现于异构网络多种类型的边和节点。

融合高级信息的方法,与上述两种通用方法不同,针对特定任务而设计。包括两部分:一是使节点表征保持原有结构信息,和结构与性质的方法很相似;二是构建节点与目标任务的关系,需要领域知识。

常用的网络表征学习模型有三种:基于矩阵分解,对邻接矩阵进行分解,得到每个节点的表征;基于随机游走,可定义节点的上下文结构;基于深度神经网络模型,用非线性函数拟合网络高度非线性结构。

未来三类需探索问题:保持更多的结构和性质;深入探索伴随信息的影响;结合更多的高级信息和任务。


《属性网络表征学习的研究与发展》

作者:胡侠
关键词:属性网络表征学习;属性网络分析

文章提出了属性网络表征学习,即将网络结构和节点属性都表示为向量的方法。随后介绍了大数据环境下,根据不同场景对其的分类:
(1)大规模属性:介绍了 AANE 算法,使用相似度矩阵表示节点密切程度;
(2)动态属性:介绍了 DANE 算法,使用离线和在线算法结合建模;
(3)与多种类信息融合:
标签信息:介绍了 LANE 算法,使用谱嵌入技术分为不同类别向量并计算相似度;
消极关系:介绍了 SNEA 算法,使用结构平衡理论分为三种节点距离;

在业界的应用上介绍如下:
(1)数据资产管理:使用元数据知识图谱结合知识推理;
(2)反作弊:全局属性网络中,聚合可疑流量,增强分析能力;
(3)异构数据源自然人识别:结合节点属性信息,识别用户;

最后进行了总结展望:
(1)更大规模属性网络与更高效率的算法:如何加速计算相似度矩阵;
(2)更多数据类型与更强大的算法:如何利用结构和节点属性外的其他类型信息;
(3)结合相关领域知识的分析方法:介绍了 NEEC 算法,将专家认知建模为新链接加入到网络中;


《异质网络表征学习的研究进展》

作者:石川
关键词:异质网络;表征学习

文章介绍了异质网络表征学习的研究进展,首先介绍了异质网络的表现模式,并阐述了异质网络的复杂性所带来的的挑战:
(1)节点和边的异质性带来的挑战;
(2)异质网络中丰富的信息带来的表示融合挑战;

异质网络表示学习可分为三种类型:
(1)基于随机游走的方法:Metapath2vec、Metapath2vec++、HIN2vec、HINE、Sim
(2)基于分解的方法:HERec、PTE、EOE
(3)基于深度网络的方法:BL-MNE、SHINE、HNE

异质网络嵌入的应用:
(1)节点分类:GERI、PTE、Metapath2vec
(2)链路预测:SHINE、HIN2vec
(3)推荐系统:HERec、Huan Zhao 等人提出的、JRL、Ting Chen,Yizhou Sun 等人提出的
(4)其他任务:针对双盲评审的作者身份识别问题;针对不同类型事件的异常检测

未来发展方向:
(1)异质信息网络中的信息融合;
(2)融合其他信息的表征学习;
(3)大规模动态网络;
(4)结合具体应用;


《全图表征学习的研究进展》

作者:唐建
关键词:表征学习;图结构

该文简单介绍了全图表征学习的实现方法、应用场景和面临挑战,与一般节点表示不同,全图表征学习的目标是将整个网络表示成一个低维向量。

全图表征学习分为无监督和有监督两种算法,有监督又可分为卷积网络和神经消息通信两种算法:
(1)基于深度核函数的无监督算法:将每个子图结构表示为一个向量,分解不同的图结构,就得到了不同子图结构的共现关系,可以用来学习子图结构向量。
(2)基于卷积神经网络的监督算法:在网络上选择重要节点作为感受野输入,把节点的局部结构由无序变为有序,即可引用标准的卷积网络算法进行特征提取。
(3)基于神经消息通信的监督算法:节点j到i的消息可以由节点i的属性与i的其他邻居节点到i的信息共同表示,多次通信后获得最终的消息表示。得到不同节点间的消息表示后,就可以得到每个节点的状态,这由节点属性和其所有邻居节点对其的消息共同决定。得到每个节点的状态表示后,整个图就可以表示为节点状态总和。

应用场景主要有:信息传播影响力预测、新药发现、社区推荐或分类等。
面临挑战主要有:(1)长距离节点相关性难以建模;(2)新药发现等领域有标注数据较少;(3)全图表示中不同输入数据的结构完全不同,难以进行大规模训练。


《网络表征学习在微信平台的应用》

作者:孙仕杰
关键词:网络表征学习;特征交叉;PS架构

本文介绍了网络表征学习在微信平台上的应用,对一些经典算法进行了概括及应用场景分析。根据微信的数据特性以及业务需求,对这些算法进行适配,建立了机器学习应用的框架。
框架分为:基础数据层,主要用于输入数据;网络表示学习算法层,包括矩阵分解、DeepWalk等算法;模型层,对上一层的无监督算法进行特征交叉和选择的封装。

此外,还详细介绍了大规模网络表征学习的实现框架,提出了分布式计算系统架构mmps4ml。
对随机游走的分布式实现,架构基于Spark + Parameter-Server来进行提高。
对Word2vec的大规模实现,架构很好地解决了单机内存消耗过大及网络通讯总量过大等问题。

后续研究主要聚焦在两个方面:
建立时序网络的表征学习算法,表达用户的社交特征的变迁、兴趣特征随时间的衰退或增强;
建立端对端的网络表征学习算法机制,将网络表征学习的特征表达能力直接对接业务,进行更加有效的表达。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值