自然语言处理在经济学领域的应用

自然语言处理在经济学领域的应用

国外机构在Alternative Data和投资领域的结合方面已有先例。
在这里插入图片描述
国内机构在使用非数据化数据探索新Alpha来源方面也有实践。
在这里插入图片描述
百发100指数:计算股票在一段时间内的百度搜索总量和搜索增量,形成“总量因子和“增量因子“
南方新浪大数据:通过将新浪财经频道下的页面点击量微博的正负面文章报道量等,形成“新浪大数据因子”
大成360互联网+大数据:通过股票的访问量、搜索量媒体报道量等数据进行统计对比分析,形成从而构建多因子策略模型
如今人工智能技术已经全面打入了金融领域,其中以自然语言处理技术在该垂直行业的突破最为显著。这其中表现最为突出的是证券行业的应用场景。众所周知,证券行业充满着博弈,任何的投资决策都需要经过大量的信息搜集和处理过程。就量化投资而言,我首先需要的就是建模,所谓建模就是需要各种结构化的信号。信号一部分可能来自于量价信息,另一部分则可能来自于技术面或者基本面;对于主观分析来说,为了了解一个公司或者行业,分析师往往需要去搜集和查阅各种相关研报、新闻、公告、基本面等数据,随后通过一系列的方法论来找出数据间的相关性,最后对未来趋势做预测。
随着近几年NLP技术在金融垂直行业的落地,我们惊喜的发现AI技术与证券行业的结合为我们带来了这四大优势:
1、在大数据时代,我们所面临的数据量是几乎以指数增长的。其中,绝大部分属于非结构化信息,比如文本、图片、音频、视频等。包含大量文本数据的新闻、股吧、论坛、微博其实跟投资决策都有一定的关系,但现阶段并没有很好地被利用,甚至被忽略,主要是源于技术的壁垒和领域的新颖性。在未来的几年内,随着移动互联网的持续发展,非结构化数据仍然会以惊人的速度增加。
2、目前的量化建模主要依赖于结构化数据。在这基础上,当我们把非结构化文本转换成结构化信号之后,就可以用来丰富模型的输入从而提升效果。在这方面,美国的量化走在我们的前面,他们早已开始使用自然语言的数据来提升量化模型的准确率,代表性的公司包括two sigma, Sentient technology等。
3、一个分析师可能需要耗费大量的时间去搜集和查阅资料(包括新闻、研报等),从而找到一些信息之间的相关性,但整个过程需要大量的人力成本。事实上,其中的很多流程都可以被机器替代,比如运用自然语言处理技术让机器对原始信息做抽取和分类、做结构化处理、并基于历史数据做相关性验证和逻辑推理等。代表性的公司有Kensho, Ravenpack等。
4、对于投资这种极其专业化的领域,一个分析师能考虑到的边界毕竟是有限的,大多数情况下他们只专注于自己熟悉的行业或领域。相反,AI技术可以无限地延伸知识的边界,能够提供更全面的信息和行业全貌。

NLP应用1:事件的影响- 通过语义技术实时分析出事件对股票、行业的影响
事件对股市的影响是不可忽视的。特别是对于”黑天鹅“事件来说,它们对于股市或许会是连锁式的影响。为了能够分析出这类事件对未来走势的影响,分析师需要搜集大量的资料、并通过统计建模找到一些相关性、再通过回测等手段最终给出一个方案,但这个方案可能是一个次优解。其实整个分析研究过程是存在一些共性的,如果利用自然语言以及知识图谱的技术去让机器自动识别被影响的个体以及影响路径等,这就会大大提升分析师的效率,从而在最短的时间内做出最优决策。
这里有两个核心的问题需要解决。
第一、需要实时监测正在发生中的重要事件,或者甚至去预测不久将来有可能会发生的事件。如果能在信息的获取上比别人提早一些,这其实也是一个很大的竞争力。美国有一家非常优秀的创业公司叫dataminr,专注于事件监测。他们通过实时抓取twitter上的内容,可以在第一时间内预测出一些重要的事件,比如某些地域里疾病的突发。
第二、为了判断事件的影响,我们需要去挖掘历史数据,找出类似的事件并从中学出一些有价值的模式(pattern)。这里有很多的挑战,比如怎么去处理稀疏事件?怎么去比较事件相似度?怎么去量化因果关系?怎么去排除环境中的干扰因素?怎么去设计模型使得不容易过拟合?此外,这对系统实时性的要求也非常高。在这类问题上,美国的kensho是最具有代表性的公司。

NLP应用2:相关性分析- 搭建包含各类金融实体的大规模金融知识图谱
一个黑天鹅事件的发生会导致一系列连锁效应,比如石油价格重上100美元。这类的事件一旦发生之后,如果有一个系统能在秒级内以全景图的方式展示出很可能被影响到的范围,它的价值是非常大的。这个范围可以包括任何跟金融相关的实体,有可能是公司、也有可能是行业、甚至是人物或者其上下游关系。除了黑天鹅事件,其他的重要政治事件、政策新闻、甚至非金融类事件也有可能对整个(或者部分)市场产生一定的影响。
在这里插入图片描述
在这类总结性的问题上,机器会比人做得更加优秀。两个主要原因:1. 海量的信息处理能力机器要远优于人;2. 机器能考虑到的边界是无限的,但相反,一个分析师一般只会去关注某一个细分投资领域。搭建此类的知识图谱是一个很复杂的过程,从信息的获取、关键信息的抽取、标签化、关联分析到推理,每一个环节都具有不同程度的挑战性。但是如果有了这类的图谱,我们就可以回答解释很多有趣的问题

!

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值