知识图谱结构作为提示:提升小型语言模型在基于知识的因果发现中的能力

在人工智能和机器学习领域,因果关系的发现一直是一个重要而具有挑战性的任务。传统方法主要依赖于对观测数据的统计分析,而近年来大型语言模型(LLMs)的发展为这一领域带来了新的思路和方法。然而,LLMs通常需要大量的计算资源,这限制了它们在实际应用中的使用。那么,我们是否可以利用更小、更高效的语言模型来完成这项任务呢?日本富士通人工智能实验室的Yuni Susanti和德国德累斯顿工业大学的Michael Färber在最新研究中给出了肯定的答案。

小型语言模型的潜力

Susanti和Färber的研究聚焦于小型语言模型(SLMs),即参数数量少于10亿的语言模型。相比于动辄数百亿参数的大型模型,SLMs具有训练和部署成本低、计算资源需求少等优势。但是,SLMs的能力往往受限于其较小的模型规模。为了克服这一限制,研究人员提出了一种新颖的方法:“知识图谱结构作为提示”(KG Structure as Prompt)。

知识图谱结构作为提示

这种方法的核心思想是将知识图谱(KG)中的结构化信息融入到基于提示的学习中。具体来说,研究人员考察了三种关键的KG结构信息:

  1. 相邻节点(Neighbor Nodes, NN):考虑目标节点对的直接邻居节点。
  2. 共同相邻节点(Common Neighbor Nodes, CNN):考虑两个目标节点共同的邻居节点。
  3. 元路径(Metapath, MP):考虑连接两个目标节点的多跳路径。

这些结构信息被转换为自然语言描述,作为提示注入到SLMs中。例如,对于节点对(FGF6, 前列腺癌),一个可能的元路径提示可能是:

“FGF6通过以下路径连接到前列腺癌:FGF6在肌腱中表达,肌腱表达SQRDL,FGFR2调节SQRDL,FGFR2与前列腺癌相关。”

这种方法不仅为SLMs提供了额外的背景知识,还帮助模型更好地理解实体之间的关系结构。

实验设置与结果

研究者们在三种类型的生物医学数据集和一个开放域数据集上进行了广泛的实验。他们采用了少样本学习设置,即仅使用16个训练样本。实验比较了三种不同架构的SLMs:

  • 掩码语言模型(MLM):使用biomed-roberta-base-125m,共1.25亿参数
  • 因果语言模型(CLM):使用bloomz-560m,共5.6亿参数
  • 序列到序列语言模型(Seq2SeqLM):使用T5-base-220m,共2.2亿参数

实验结果令人振奋:

  1. 在大多数实验中,提出的方法显著优于没有图上下文的基线模型。在生物医学数据集上,F1分数最高提升了15.1个百分点;在开放域数据集上,提升了6.8个百分点。

  2. 尽管只使用了16个训练样本,该方法的表现通常仅次于使用全部数据集训练的传统微调模型。在某些情况下,它甚至超越了全数据训练模型的性能。

  3. 更令人惊讶的是,基于SLMs的模型在大多数实验中都超过了使用更大规模模型(如GPT-3.5-turbo)的上下文学习方法。这凸显了知识图谱在支持小型语言模型方面的重要性。

分析与讨论

研究者们对实验结果进行了深入分析,得出了几个有趣的发现:

  1. KG结构的选择:在大多数情况下,元路径(MP)结构贡献最大,而相邻节点(NN)和共同相邻节点(CNN)的表现相当。这表明,KG结构的类型比其具体内容更为重要。

  2. 模型架构的影响:总体而言,基于MLM架构的模型表现最好,其次是Seq2SeqLM,最后是CLM。这与MLM能够同时考虑前后文信息的特性相一致。

  3. 知识图谱的选择:在生物医学领域,特定领域的知识图谱(如Hetionet)通常表现更好。但是,通用知识图谱(如Wikidata)在某些数据集上也取得了不错的结果,显示了该方法对知识图谱选择的灵活性。

  4. SLMs vs LLMs:实验结果表明,结合提示学习和知识图谱的SLMs能够在多个任务中超越参数规模大得多的LLMs。这不仅证明了SLMs的潜力,也说明了外部知识(如KG)对于增强模型能力的重要性。

结论与展望

Susanti和Färber的研究为基于知识的因果发现任务提供了一种新的思路。通过将知识图谱的结构信息融入到提示学习中,他们成功地增强了小型语言模型的能力,使其在少样本学习的情况下也能取得与大型模型相当甚至更优的性能。这一方法不仅在因果发现任务上表现出色,还展示了良好的灵活性和适应性,可以应用于不同的模型架构和知识图谱。

未来,研究者们计划将这一方法扩展到更复杂的场景,如分析包含多个相互关联变量的因果图。这将有助于我们更深入地理解因果关系的本质,并为各个领域的科学研究和决策提供更强大的工具支持。

这项研究不仅为因果发现领域提供了新的方法,也为如何有效利用小型语言模型和结构化知识提供了宝贵的启示。随着技术的不断发展,我们可以期待看到更多结合深度学习和知识图谱的创新应用,为人工智能的发展注入新的活力。

参考文献

  1. Susanti, Y., & Färber, M. (2023). Knowledge Graph Structure as Prompt: Improving Small Language Models Capabilities for Knowledge-based Causal Discovery. arXiv:2407.18752v1 [cs.CL].

  2. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 [cs.CL].

  3. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Liu, P. J. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21(140), 1-67.

  4. Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165 [cs.CL].

  5. Himmelstein, D. S., Lizee, A., Hessler, C., Brueggeman, L., Chen, S. L., Hadley, D., … & Baranzini, S. E. (2017). Systematic integration of biomedical knowledge prioritizes drugs for repurposing. eLife, 6, e26726.

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值