“FinDKG: Dynamic Knowledge Graphs with Large Language Models for Detecting Global Trends in Financial Markets”
论文地址:https://arxiv.org/pdf/2407.10909
摘要
动态知识图(DKG)能够表示对象间随时间变化的关系,适用于从复杂且非结构化的数据中抽取信息。在金融领域,DKG可以用来根据金融新闻识别投资趋势。本文介绍了一个名为集成上下文知识图生成器(ICKG)的开源微调大型语言模型,它能创建金融新闻报道的动态知识图谱FinDKG。我们还开发了一种基于注意力机制的图神经网络架构KGTransformer,用于解析这些FinDKG。实验结果显示,在基准数据集和FinDKG上的链接预测任务中,KGTransformer展现了优秀的性能,并且在主题投资策略上,其表现超越了现有的主题交易所交易基金(ETF)。
简介
知识图谱(KG)由实体、它们之间的关系以及这些关系所构成的事实组成,其基础构建块是三元组(主体, 关系, 客体)。动态知识图谱(DKG)则在传统KG的基础上增加了时间元素,使得事件可以被描述为四元组(主体_i, 关系_i, 客体_i, 时间戳_i),从而能够表示随时间变化的关系。动态知识图谱的学习过程涉及利用图神经网络(GNN)来捕捉KG的结构特性及其随时间的变化模式。本文提出了一种名为KGTransformer的新模型,它是一种结合了注意力机制的GNN,能够考虑元实体信息,以提高链接预测的效果。此外,还开发了一个称为集成上下文知识图生成器(ICKG)的工具,该工具利用大型语言模型(LLM)从文本数据中抽取实体和它们之间的关系,并形成带有时间信息的事件四元组。通过ICKG,我们创建了一个开源的金融领域动态知识图谱数据集FinDKG,旨在支持主题投资分析。
01相关工作
图表示学习:
图表示学习利用图神经网络(GNNs)来获取图结构的紧凑表示,从而改善节点分类、边预测和图分类等任务的表现。在知识图谱(KGs)中,这些技术有助于信息检索、问答系统和个性化推荐。
金融知识图谱:
动态金融知识图谱能够捕捉金融体系内复杂的、随时间演变的关系,并应用于诸如欺诈检测和股价预测等领域。然而,传统的静态GNN模型在处理动态变化的金融网络时遇到了困难,因为它们未能充分考虑时间维度上的数据变化。
金融中的大语言模型(LLMs):
大型语言模型(LLMs)在金融应用中取得了显著成就,例如在情感分析和股票市场趋势预测方面。不过,这类模型也带来了可解释性和计算资源消耗的问题。为了解决这些问题,一些开源替代方案如Meta推出的LLaMA以及Mistral AI开发的LLM提供了更加高效的选择。
02集成上下文知识图谱生成器(ICKG)
目标:
我们设计了一条自动化且易于扩展的流水线,旨在从非结构化的数据源(如文本资料)中抽取时间维度的知识图谱。此过程采用大型语言模型(LLM)来构建知识图谱,并通过监督式微调进行个性化定制。为此,我们开发了集成上下文知识图谱生成器(ICKG),该工具基于GPT-4 API进行了优化,以提高知识图谱创建任务的效率。
微调流程:
为了构建微调的数据集,我们选取了5000篇开源的金融新闻文章作为素材,每篇文章依次被送入GPT-4模型中,从中抽取出三元组并对实体进行分类。随后,我们对这些提取结果进行了严格的数据质量控制,只保留那些完全符合指令要求并且每篇文章至少产生5个四元组的输出。利用这些经过筛选的四元组,我们对开源的Mistral 7B模型进行了微调,整个过程大约需要10小时,在8个配备40GB内存的A100 GPU上运行完成。