©PaperWeekly 原创 · 作者 | Jianwu Zheng
单位 | 上海交通大学
研究方向 | 数据管理与人工智能
以 ChatGPT 为代表的大语言模型(LLM)正引发新一轮人工智能技术发展浪潮,并受到全球的广泛关注。LLM 不光具有出色的文本理解与生成能力,还能领悟丰富的物理世界知识,从而有效解决各类复杂任务。因此,LLM 常常被认为是迈向通用人工智能的基础。
然而,LLM 面对现实世界的海量数据,其应用将带来难以承受的成本开销。上图展示了各种数据类型的增长趋势及其对应的 LLM token 开销。我们可以明显看到,LLM 所带来的开销是我们无法承担的(例如,2025 年 LLM 的总体开销接近 5000 万亿美元,是美国 2023 年国内生产总值 27.37 万亿美元的 214 倍)。另一个有趣的现象是,处理文本和结构化数据将占据主要开销,尽管这类数据的体量没有多媒体数据大。
由于关系数据库托管了全球大约 73% 的数据,本工作开发了 rLLM(relationLLM)项目,旨在提供一个能够快速搭建关系表格学习和 LLM 协同的算法平台。
论文链接:
https://arxiv.org/abs/2407.20157
代码链接:
https://github.com/rllm-project/rllm
如上图所示,它执行两个关键功能:1)将最先进的图神经网络(GNNs)、LLM 和表格神经网络(TNNs)分解为标准化模块;2)利用分解后的模块以 “Combine、Align、and Co-Train” 的方式构建新模型。据我们所知,目前这是全球唯一面向关系表格学习的算法库/平台。
本文还提供了一个基于 rLLM 算法库实现的一个非常简单的关系表格学习示例算法——BRIDGE。具体来说,此方法一方面使用 TNNs 处理表格数据,另一方面依托关系表格数据中的“外键”,构造表格样本之间的关联关系,进而使用 GNNs 进行分析。如此,该方法将多个表格以及它们之间的关联关系都考虑进来。
此外,由于目前关系表格学习处于新兴发展趋势,其数据集仍然较为欠缺。为此,本文贡献了三个多表格关系数据集:TML1M,TLF2K 和 TACM10K。对于每个数据集,我们都默认提供了一个非常简单、标准的分类任务。这几个数据集都是基于经典数据的二次抓取/扩充,因此非常适合用来设计 RTL 的核心算法。当然,后续研究者也可以基于这些数据集构建其他类型的任务。
我们可以明显的看到 BRIDGE 的优势。这是因为传统的单表格 TNNs 只能从单一表中提取信息,无法有效地利用多表格提供的信息以及表格之间的关系信息,因而其效果较差;相反地,BRIDGE 算法利用表格编码器和图编码器比较有效地从多个表格内部以及表格关系之间提取有效信息,效果得到了一定的提升。未来,可以在 BRIDGE 方法引入 LLM,进一步提升效能。
关系表格学习是近年来新兴的研究方向。该方向为学术界广泛研究的 GNNs 和 TNNs 找到了关系数据库这个绝佳的工业应用场景。另一方面,大语言模型正掀起新一轮的人工智能浪潮,潜在市场规模巨大。这两方面研究的结合将为数据库行业和人工智能行业构建一座沟通桥梁,具有重要的研究和应用意义。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·
·
·