仅一层参数提速500倍！上交大提出简单高效的半监督图嵌入算法

最新推荐文章于 2024-10-08 20:32:22 发布

PaperWeekly

最新推荐文章于 2024-10-08 20:32:22 发布

阅读量81

点赞数

文章标签：算法

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247681237&idx=2&sn=f57917c275991bcddb1f87a9d3533861&chksm=97dc0ac18146916e391331f31c5f748a05ee43e276a23dd2c259cb187afd8aad47c9c3d61ae8&scene=126&sessionid=0

版权

©PaperWeekly 原创 · 作者 | Jianwu Zheng

单位 | 上海交通大学

研究方向 | 数据管理与人工智能

近年来，神经网络（深度学习）主导了人工智能领域，并推动了大模型技术的蓬勃发展。然而，该论文引发了两个看似不相关却极具启发性的问题，可能会改变我们对现有技术的看法。

论文标题：

From Cluster Assumption to Graph Convolution: Graph-based Semi-Supervised Learning Revisited

论文链接：

https://arxiv.org/pdf/2309.13599

代码链接：

https://github.com/zhengwang100/ogc_ggcm

研究问题

第一个问题聚焦在图深度学习领域：为什么图神经网络（GCNs）会遭遇过渡平滑（oversmoothing）的问题，而传统的浅层方法却没有这种困扰，尽管它们都采用了相似的邻居信息聚合策略？

针对此问题，此论文给出了答案：相对于传统的浅层方法，典型的 GCNs 是一类“次优”方法。即 GCNs 在每一层无法同时对基于图结构的损失和基于标签的损失进行优化，从而导致了过渡平滑问题。此外，论文进一步首次从理论上给出了 GCNs 过渡平滑的理论收敛值，并通过可视化进行了展示。

第二个问题聚焦于深度学习中的数据利用效率：传统上，标注数据被分为训练集和验证集，前者用于训练模型权重，后者用于选择超参数。然而，（宝贵的、有标注的）验证集无法指导模型训练是否可惜？

针对此问题，此论文引入了一个新的深度学习模型训练 trick，叫做 LIM（Less is More）trick。其核心思想是使用所有监督数据（训练集+验证集）指导模型权重训练，但是只使用训练集（而不使用验证集）来做基于梯度下降的模型权重更新。通过这种方式，验证集的数据得到了更有效的利用，从而提升了模型的性能。

解决方案与实验结果

基于上述问题的研究，论文给出了一个非常简单的、只有一层神经网络的、半监督图嵌入算法 OGC。当从每一层的邻居中聚集信息时，OGC 基于“最优化理论”思想同时考虑图结构和标签信息。在模型参数训练更新时候，OGC 引入 LIM trick 来充分发挥验证集的效能。

实验表明，在标准数据集 Cora、Citeseer 和 Pubmed 上，OGC 仅用一层参数就超越了所有对比方法，并在知名算法开源网站 PapersWithCode 上相关任务中排名第一。OGC 的运行速度也比其他精度较高但层数多的深度学习方法快 130 到 500 倍。

未来展望

这一研究揭示了未来两个非常有潜力的研究方向：

1. 小模型的潜力提升：虽然当下各类“定制”小模型在特定应用场景往往能够展示出不错的经济性，但是精度上仍然会输给大模型，而该论文则揭示了小模型的拥有击败大模型的潜力，值得工业界和学术界继续探索。

2. 大模型数据利用效率：大模型（比如各类 LLMs）对训练数据，尤其是珍贵的标注数据需求巨大，但是标注数据利用率仍然不佳，而 LIM trick 可以充分提升验证集利用效能，可能会是各类大模型训练数据不足的“解药”？

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。