作者介绍
马永亮 ,澜舟科技搜索与金融 NLP 技术负责人。2009年硕士毕业于哈尔滨工业大学,先后在阿里巴巴和微软工作,主要从事搜索引擎、问答、翻译、NLP 相关的技术和产品研发。2021年4月加入澜舟科技。
本文根据马永亮在「澜舟NLP分享会」上的演讲整理,文内介绍了金融事件分析相关技术背景以及澜舟目前的工作进展。全文约 3800 字,预计阅读时长 8 分钟。
目录
金融事件分析背景
在金融领域,事件是理解信息的有效载体,如何更好的理解和分析事件一直是金融领域研究的热点。预训练模型技术在翻译、搜索、生成等领域都体现了它强大的能力,应用在金融事件分析中也取得非常显著的进步。
图 1
金融事件分析的主要任务有三块:
-
第一块是非结构化数据智能解析。金融领域的信息多数以非结构化的数据形式存在,比如PDF。从非结构数据中解析出重要的、准确的、格式语义清楚的文本对后面的事件分析至关重要,它能有效减少噪音数据、脏数据对模型的干扰,提高结果的准确度。
-
第二块是事件语义理解。 这里主要涉及事件类型的检测、事件要素的抽取和事件之间的关系,在这些对事件的理解基础之上。
-
第三块就可以构建事件图谱并进行事件图谱的分析,包括事件链分析和事件预测。
为了完成这些任务,这里面涉及到的技术主要有两个:金融事件体系和金融事件图谱。
金融领域,有不同的主体,不同的主体也有不一样的场景,为了能最好的支持这些主体和场景,需要建立相应的事件体系,这里面既有领域知识的人工工作,也结合技术做无监督的归纳学习,从而能够提供场景化、完整性和可扩展的事件体系。金融事件图谱把事件分析技术集成在了一起,抽取事件和事件关系,学习事件的表示,然后结合图的信息进行预测。
有了这些技术和能力,我们对事件的分析,让我们能够回答诸如“这是一家什么公司的事?是一件什么事?人们对事情评价的情绪如何?为什么会发生?”等等。能够回答这些问题对金融领域的很多场景都是非常有价值的。
金融事件体系
图 2
图 2 是一个金融事件体系的例子。我们将金融事件分为两级:
第一级根据事件的主体分为5类,分别是企业、股票、行业和宏观、债券和基金。这些都是金融领域非常重要和常见的对象。
第二级将每种类型主体事件的再进行的细分,比如企业这个一级事件类型下面有股东减持事件。那么最后,一个二级事件类型将包含这个事件相关的主要元素。再拿股东减持为例,减持