如识图谱的构建与应用技术。
构建知识图谱的本质是一个从数据采集,数据建模到数据存储的过程。
(1)通过结构化数据库、爬虫等方式获取知识图谱原始数据;
(2)对数据进行预处理。其中,文本数据往往需要借助自然语言处理技术;
(3)提取数据中的实体和关系。其中,不同来源的知识需要进行知识融合;
(4)构建三元组;
(5)存储三元组信息。可以采用关系数据库和Neo4j等图数据库;
(6)使用知识图谱。
知识图谱在金融投资领域的应用。
通过知识图谱,我们可以进行产业链的挖掘,建立更为全面深入的事件驱动投资策略,构建知识图谱类因子,改善现有分析框架等。
产业链挖掘,通过对比产业链的产品和服务网络中的“实体”与上市公司主营业务产品网络中的“实体”,并将相同的“实体”进行链接,即可确认不同公司在产业链中的具体位置。此外,知识图谱也可以根据不同的关系得到不同的网络信息,例如,股权网络挖掘、供应链挖掘、热点主题挖掘等。
事件驱动策略。以业绩预警事件在应收账款网络中的传播为例,除了直接发生业绩预警事件的上市公司外,这些公司的主要应收账款债权人也受到相同方向的冲击,但影响幅度会有所减弱且具有一定的滞后性,类似地,其他事件也可能存在这种传递效应,例如,大股东重大负面信息(例如,偷税漏税)在股权网络中的传播、主营业务产品产量大幅减少在供应链网络中的传播等。
如识图谱类因子。可以采用供应链、股权等数据构建图网络相关因子,包括:下游企业的业绩、上游企业的基本面、关联公司的数量和分散度、企业在图网络中的重要性、中心性等因子,由于这类因子包含关联结构,能够提供额外的信息,因而与传统因子的相关性通常较低。
对现有分析框架的改进。以行业基本面量化为例,知识图谱标准化了不同品种/行业的分析和研究框架,由此带来的改进主要体现在以下三点。
(1)可以对知识图谱中的任一节点进行预测和分析。例如,要研究铝的库存情况,只需选取与库存有关联关系的所有节点作为初始变量集;
(2)将知识图谱中的结构信息带入量化模型中。例如,采用主成分分析降维,可以对每个包含关系下的分项变化汇总为一个主成分等。
(3)可以在传统量化模型的基础上叠加行业观点。
(来源侠说)