IJCAI2019 FinNLP(金融+NLP论文)

今年的IJCAI增加了金融技术和自然语言处理研讨会(FinNLP 研讨会),主要是分享将NLP技术应用于金融科技领域的研究,探讨未来的研究方向。

参与者来自学术界和工业界,他们提出了几个新的任务,包括业务分类法构建,交易的基本原理和合同消歧、销售预测、股票市场预测、情感分析等等。下面将详细介绍。

 

1. Business Taxonomy Construction Using Concept-Level Hierarchical Clustering

Haodong Bai,† Frank Z. Xing,‡ Erik Cambria,‡ Win-Bin Huang

本文来自北京大学、南阳理工大学。

投资人在做资本研究和专业决策时,商业分类体系是不可缺少的工具。然而,识别一个新兴市场下的行业结构是非常有挑战的,主要有两个原因,一是现存的分类体系是根据成熟市场来设计的,对于具有新颖商业模型的小公司,可能并没有合适的分类;二是新兴市场发展很快,静态的商业分类体系并不能很好地反应新的特点。本文提出一种新的方法从公司年报中自动构建商业分类体系,提取出来的概念通过贪心affinity传播算法分层次地聚类。我们的方法需要更少的监督信息,并且可以发现新的词项。在中国全国企业股份转让系统市场上的实验表明,我们构建的分类体系有好几个优势,我们的结果提供了一个有效的工具来理解和投资新兴公司。

数据源:从全国中小企业股份转让系统爬取2014-2017年的数据,共21739份年报,涉及10375家公司。已经公开可下载。

效果展示如下图,以教育为例:

 

2. Towards Disambiguating Contracts for their Successful Execution - A Case from Finance Domain

Preethu Rose Anish, Abhishek Sainani, Nitin Ramrakhiyani, Sachin Pawar, Girish K Palshikar and Smita Ghaisas

本文来自印度TCS研究。

合同管理在金融服务中非常重要,为了在给定场景下最大化参与者的金融利益,合同声明了从事商业活动的准则或行为规范和建议。向卖方授予项目的合同、雇佣合同、租赁协议、特许经营协议、甚至婚前协议都有重大的财务影响。理解合同是实现组织目标的重要步骤,包括建立合规的系统,按时交付交货,避免严厉的处罚并避免昂贵的诉讼。但是,“合同语言”的复杂性使得难以利用他们本该提供的指导。合同是事先根据预测而非实际结果而写的,因此可能包含模棱两可和不完整的指导,可能会导致意外的违规行为。我们通过使用通用体系结构R3来实现合同歧义消除的自动化,以解决这些问题:(1)识别合同中存在的重要基本信息,(2)信息元素的推理以识别它们之间的相互关系并揭示歧义性和不一致;(3)以可视格式(例如消息序列图)呈现信息,该格式描述了合同义务中的不同元素。

R3:Recognize Layer, Reason Layer, Render Layer。

 

3. Rationale Classification for Educational Trading Platforms

Annie Ying and Pablo Duboue

本文来自思科和Textualization软件公司。

近年来,股票交易模拟平台已成为流行的金融教育工具。为了鼓励学生通过贸易订单思考,许多这样的平台在贸易订单用户界面中提供了一个称为“理性(Rationale)”的字段。在本文中,我们提出了一个称为“深思的理性分类”的新问题,它基于以下两个研究:(1)对影响学生交易技巧的金融专业评估的因素进行的观察性研究;(2)定性研究了2,622个“理性”。两项研究共同表明,当学生提供深思熟虑的理性(定义为记录外部研究,特定策略或进行的任何技术分析的理性)时,就交易技巧而言,该学生很可能会获得更高的评价。我们发现,将理性贴上标签是否经过深思熟虑是一项定义明确的任务,并使用CNN使其自动化。我们还比较了使用简单功能和支持向量机(针对所选关键字)的基线实现。

 

4. CoFiF: A Corpus of Financial Reports in French Language

Tobias Daudert and Sina Ahmadi

本文来自爱尔兰国立高威大学。

在机器学习和人工智能蓬勃发展的时代,训练和测试模型的数据需求正在稳步增长。 我们提出了CoFiF,这是第一个由法文报告组成的语料库。 它包含1.88亿个词,涉及 2655个报告,涵盖了参考文件、年度、工业和修剪报告。 我们关注CAC40和CAC Next20列出的法国重要股票公司中最大的60家。语料跨越20年,从1995年到2018年。为了评估这个官方撰写的数据集, 我们使用CoFiF生成两种字符级别的语言模型,即向前和向后的模型,我们将使用它们来展示法文在商业、经济和管理研究方面的语料库潜力。语料库已经公开。

 

5. Step-wise Refinement Classification Approach for Enterprise Legal Litigation

Ying Mao, Xian Wang, Jianbo Tang and Changliang Li

本文来自金山软件。

在金融和诉讼领域,数据挖掘技术具有绝对广阔的市场前景,但也是一项艰巨的任务。 过去几年见证了数据挖掘在金融和诉讼相关应用中的巨大成功。 通常,大多数现有工作集中于为客户提供诉讼风险评估和结果预测服务。 然而,关于企业法律诉讼类型的研究是有限的。 在本文中,我们将重点放在企业诉讼类别的预测上,并提出一种新颖的方法来将问题细化为分类任务。 首先,我们评估企业收到的法律文件的可能性分布,然后区分特定的法律诉讼类型。 我们将我们的方法应用于由IEEE ISI Conference 2019发起的国际大数据分析竞赛中,并在最终排行榜中获得第一名。

 

6. CoSACT: A Collaborative Tool for Fine-Grained Sentiment Annotation and Consolidation of Text

Tobias Daudert, Manel Zarrouk and Brian Davis

本文来自爱尔兰国立大学、梅努斯大学。

近年来,机器学习,尤其是深度神经网络方法已经越来越流行,在金融领域起着越来越重要的作用。 这导致对用于训练和测试的大量高质量标记数据的需求增加。 尽管标注工具可用于支持文本分析任务,例如对通用内容的实体识别和情感分类,但却没有专门为金融领域构建的标注工具。 与此相关的是,在金融领域,也没有现存的最佳的情感标注最佳实践。 为解决此问题,我们建议为该域创建新数据集的基本做法,并将其集成到我们的标注工具中。 我们介绍CoSACT,这是一种基于服务的工具,它支持为金融领域专门构建的数据集进行协作标注和合并。

 

7. Financial Text Data Analytics Framework for Business Confidence Indices and Inter Industry Relations

Hiroki Sakaji, Ryota Kuramoto, Hiroyasu Matsushima, Kiyoshi Izumi, Takashi Shimada and Keita Sunakawa

本文来自东京大学、冲绳银行。

在本文中,我们提出了一个使用本地银行的联系历史来分析行业间关系的新颖框架。 联系历史记录是员工与客户交流时记录的数据。 通过分析联系历史,我们可以确定当地的业务信心水平,并使用联系历史附带的行业数据分析行业间的关系。 但是,银行家通常很难创建分析程序。 因此,我们提出了一个对银行家友好的行业间关系分析框架。 在这项研究中,我们生成了区域商业信心指数,并用它们来分析行业间的关系。

 

8. Learning to Learn Sales Prediction with Social Media Sentiment

Zhaojiang Lin, Andrea Madotto, Genta Indra Winata, Zihan Liu, Yan Xu, Cong Gao and Pascale Fung

本文来自香港科技大学、EMOS。

社交媒体情绪已被证明是产品销售预测的有用资源。 但是,对情感指数与销售之间的相关性进行建模的研究通常受到季度销售数据稀缺的限制。 在本文中,我们建议学习如何从不同的源产品中学习情绪-销售的相关性,以及如何将其转换为另一目标产品的销售预测。 我们对7种不同智能手机的销售数据进行了评估,结果表明,通过7倍交叉验证实验,从6种来源产品的知识转移显着降低了目标产品的销售预测误差。

 

9. Leveraging BERT to Improve the FEARS Index for Stock Forecasting

Linyi Yang, Ruihai Dong, Tin Lok James Ng and Yang Xu

本文来自爱尔兰都柏林大学、北京工业大学、澳大利亚卧龙岗大学。

FEARS 指数(Financial and Economic Attitudes Revealed by Search),反映了公众投资者的关注和情绪,是预测股票价格回报的重要因素。在论文中,我们通过 BERT(Bidirectional Encoder Representations from Transformers)来考虑 FEARS 搜索项的语义,并进一步将自注意力的深度学习模型,应用于精确预测 FEARS,以进行股票收益的分析。通过与基准工作进行比较,我们证明了该方法的超越常规方法的预测。 

 

10. Economic Causal-Chain Search Using Text Mining Technology

Kiyoshi Izumi and Hiroki Sakaji

本文来自日本东京大学。

在本文的研究中,我们从文本数据中抽取因果信息,构建一个经济领域的因果数据库。并且,我们提出一个新的方法,它可以从具体事件表示的状态开始产生因果链,还可以提供具体事件或模拟情况的可能的波动效应和因素。将方法应用于日语文本数据中,我们实现了一个原型系统可以展示用户输出词的因果链,用户可以跟这个系统进行交互,通过选择合适的因素和删除不合适的因素来编辑因果链。在这个项目中,我们利用该方法针对英文文本数据,比如金融新闻文章或者金融报告。这个经济因果链搜索算法可以应用在很对金融信息服务中。

 

11. Transformer-Based Capsule Network for Stock Movement Prediction

Jintao Liu, Hongfei Lin, Xikai Liu, Bo Xu, Yuqi Ren, Yufeng Diao and Liang Yang

本文来自大连科技大学、科大讯飞、内蒙古民族大学。

股票涨跌预测是学术界和工业界非常有挑战的一个研究。采用社交媒体来预测股票涨跌是一种有效但也很困难的事情,然而现有基于社交媒体的预测方法没有考虑丰富的语义性和特定股票的关联性,导致编码效果不佳。为了解决这个问题,我们提出了一个基于Transformer编码器的胶囊网络(CapTE),他采用Transformer编码器来提取社交媒体的深度语义特征,然后利用胶囊网络唉捕获文本的结构关联性。本文采用不同的benchmarks来评估我们的方法,实验结果证明我们的方法提高了股票涨跌预测的准确性。

 

12. Pluto: A Deep Learning Based Watchdog for Anti Money Laundering

Hao-Yuan Chen, Shang-Xuan Zou and Cheng-Lung Sung

本文来自中国信托商业银行(中国台湾)

银行面临反洗钱(AML)的义务,通过各个渠道的负面新闻来识别问题客户,是一种必不可少的方法。通过搜索新闻,出版物资料,政府咨询和公告信息,得到有关个人或实体参与金融犯罪事务的信息。但这种方法需要大量的人力和时间,而且往往效率很低。 为了解决这个这个问题,Pluto为 AML 从业者,提供了一种分布式和可扩展的批处理系统,基于深度学习的自然语言处理(NLP)技术,以提高日常任务效率。它对一组负面新闻执行文本预处理,使用段落嵌入和聚类算法,为 AML 从业者提供具有关键字和相似性的聚类结果。AML 从业者的整体反馈良好,此工具可减少 67% 的信息筛选工作。 

 

13. From Creditworthiness to Trustworthiness with Alternative NLP/NLU Approaches

Charles Crouspeyre, Eleonore Alesi and Karine Lespinasse

“信用”一词来自拉丁语“ credere”,意思是“给予信任”。今天,金融机构给予这种信任的方式主要是基于统计方法,利用诸如个人收入,他/她每月花费的金钱等金融信息来量化成功偿还贷款的机会。 根据定义,这种量化风险的方法将限制具有银行信息历史记录的个人对金融服务的访问。如此处所述,在新兴市场中,很大一部分人口不符合这些条件,因此被排除在等式之外。本文讨论了其他方法,使这些无银行账户的人可以在审查当前和创新的自然语言处理和自然语言理解方法时获得金融服务。后者支持出色的风险量化结果,而不影响借款人的隐私,并导致从有偏见的信用度转向更广泛的信用度。

 

14. On a Chatbot Conducting a Virtual Dialogue in Financial Domain

Boris Galitsky and Dmitry Ilvovsky

本文来自甲骨文,国家研究大学高等经济学院

在个人财务领域资讯方面,我们研发了一款聊天机器人,它以虚拟对话的形式提供问答服务,内容则来自历史文档资料,通过自动提取和选择,生成纯文本回复。 输入问题查询,聊天机器人会查找文档,从中提取相关资料,根据关注焦点在群集中组织这些内容,并分析和预测出最有价值的资料,然后提供给用户。通过虚拟对话评估信息传递的有效性,我们比较了用户获得纯文本答案的传统聊天机器人会话,以及通过虚拟对话向用户提供内容的会话。

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值