行业应用 自然语言理解如何解放金融从业者

前言

都说人工智能已经渗透到我们生活的方方面,今天具体介绍一下,中文自然语言理解(NLU, Natural Language Understanding )在金融领域的应用。

人工智能最大的落地点,是把人从无聊、繁琐、低效的劳动中解放出来。

金融行业有什么痛点,是人工智能可以解决的

看一个行业的痛点是什么,就看这个行业里大量的人,把大量的时间精力花费在什么事情上。

对于金融行业,在办公室做市场分析和投资报告的白领们,每天花费大量的时间在什么事情上——读市场研究报告,读证券交易新闻,读投融资信息。金融行业的从业者,在读读读上花费了大量的时间。

读研报是为了什么?为了获取信息。但真正有价值的信息非常有限。从冗余繁杂的文本中,提取出最有价值的那一部分出来,机器能不能帮助人类实现这一点呢?

机器帮你,秒懂文本中的实体和实体关系

假设你是一位金融从业者,上班第一件事就是读报告,这是其中的第一段话:

华夏幸福基业股份有限公司(以下简称"公司"或"华夏幸福")全资子公司廊坊京御房地产开发有 限公司(以下简称"京御地产")暨京御地产全资子公司廊坊市圣斌房地产开发有限公司(以下简 称"廊坊圣斌")拟与华能贵诚信托有限公司(以下简称"华能贵诚")签署《增资协议》,涉及华 能贵诚设立信托计划,以信托计划募集资金向廊坊圣斌增资180,000万元,其中98,000万元计入 注册资本,82,000万元计入资本公积金(增资总金额以信托计划实际募集情况为准)。就京御地 产、廊坊圣斌与华能贵诚签署的所有合同(包括但不限于《增资协议》、《股权收购协议》(如 有)),公司为京御地产及廊坊圣斌根据前述文件对华能贵诚所承担的义务提供最高额连带责任 保证担保,京御地产以其持有的廊坊圣斌增资后51%股权提供质押担保。

一段三百字的文字,最重要的信息是什么?

抽象地说,是其中的实体,比如公司,和实体之间的关系,比如 A 公司是 B 公司的母公司。利用自然语言理解相关技术,我们可以识别出来其中的实体和实体关系:

实体识别: 公司

华夏幸福 华夏幸福基业股份有限公司 京御地产 廊坊京御房地产开发有限公司 廊坊圣斌 廊坊市圣斌房地产开发有限公司 华能贵诚 华能贵诚信托有限公司

实体关系:

华夏幸福基业股份有限公司→(父子公司)→廊坊京御房地产开发有限公司 廊坊京御房地产开发有限公司→ (父子公司) →廊坊市圣斌房地产开发有限公司 华能贵诚→(向…增资)→廊坊圣斌 华夏幸福→(向…提供担保)→京御地产 华夏幸福→(向…提供担保)→廊坊圣斌

原本一团密密麻麻、读起来相当费劲的文字,经过人工智能处理,变得如此清晰。使用自然语言理解里面的“实体识别”和“实体关系识别”技术,能很快速明了的找出文本中表达的实体与关系。经过信息可视化处理,一段文本表达的信息一瞬间就了然于心。

实际上,实体关系识别是金融行业中的最典型应用。在法金授信(查看分析一个企业过去发生过怎样的新闻、丑闻)、二级市场分析、个资掩码(识别网络中的个人信息实体,比如电话、姓名等)、授信照会、投资研究领域都会用到实体关系识别技术。

构建金融知识图谱,让机器自动得出结论

上面讲到我们会使用自然语言理解技术提取出文本中的“实体”与“实体关系”,实际上有了这两种东西,我们就可以来构建知识图谱了。

什么是知识图谱?知识图谱是通过保存实体和实体间关系来实现语义搜索的数据库。

金融知识图谱,是通过将公司、管理层、新闻事件以及使用者个人偏好都表示为实体,发现其间的联系。有了金融知识图谱,工作人员对金融数据的搜索就会更加高效,投资者也能获得更具针对性的投资建议。对公司来说,金融知识图谱有利于提高风控、反欺诈、获客等能力。

当我们或一个程序对一个公司或有价证券产生兴趣时,有一个系统能自动整合网上公开信息和使用者拥有的私有信息,不仅仅是金融报告,还包括 911、熔断机制、舆论走向等世界知识,对有兴趣的实体进行基本面分析,或对某个实体集合进行量化分析。这就是知识图谱。

借由知识图谱,找到此行业的本体,提取本体下的实体拥有的量化数据,计算出各种查询者需要的指标。也可以通过与实体相关的事件,分析各时间点上行业的情绪状态,甚至能粗略分析行业内资产的所有权网和人员关系网,最后根据查询者查询重点的不同进行自动文摘等处理,生成人类可读的短文章。当然生成文章又涉及到自然语言生成技术(Natural Language Generating,NLG)了。

通过自然语言整理知识图谱,而知识图谱再通过自然语言进行推理,提供决策建议,这将会是人工智能的下一波增长点。在这其中,自然语言理解技术起到的作用,举足轻重。

利用词向量技术,生成实体列表和商务规则

词向量技术是近年来发展出来的一种深度学习技术,它可以通过扫描文本而自动将每个单词嵌入到一个高维空间中,使得每个单词出现的位置都和它的上下文有关,相似的词可以得到相似的空间向量。

另外,更有意思的是,词向量不仅能够表达实体单词,还能表达实体之间的关系,例如著名的公式:男人-女人=国王-王后,这里面的差向量就是男女关系这个向量。所以,利用词向量可以进行一定的类比思维。

比如下图,左侧的实体是国家,右侧的实体是城市,直线对应的是首都关系。

再举一例,我们将词向量技术用于枚举出所有的币种。通过扫描大量的文本,可以得到每个单词的词向量,那么怎么把所有的货币的名称挑选出来呢?

答案很简单,就是利用如下这个cos距离的公式,我们只要将与美元的距离+英镑的距离和最小的那些词向量所对应的实体列举出来就可以了。

CosDistance([美金])+CosDistance([英镑])升幂排序

小结


每一个HTML文档中,都有一个不可或缺的标签:<head>,在几乎所有的HTML文档里, 我们都可以看到类似下面这段代码:

html{color:#000;overflow-y:scroll;overflow:-moz-scrollbars}
body,button,input,select,textarea{font-size:12px;font-family:Arial,sans-serif}
h1,h2,h3,h4,h5,h6{font-size:100%}
em{font-style:normal}
small{font-size:12px}
ol,ul{list-style:none}
a{text-decoration:none}
a:hover{text-decoration:underline}
legend{color:#000}
fieldset,img{border:0}
button,input,select,textarea{font-size:100%}
table{border-collapse:collapse;border-spacing:0}
img{-ms-interpolation-mode:bicubic}
textarea{resize:vertical}
.left{float:left}
.right{float:right}
.overflow{overflow:hidden}
.hide{display:none}
.block{display:block}
.inline{display:inline}
.error{color:red;font-size:12px}
button,label{cursor:pointer}
.clearfix:after{content:'\20';display:block;height:0;clear:both}
.clearfix{zoom:1}
.clear{clear:both;height:0;line-height:0;font-size:0;visibility:hidden;overflow:hidden}
.wordwrap{word-break:break-all;word-wrap:break-word}
.s-yahei{font-family:arial,'Microsoft Yahei','微软雅黑'}
pre.wordwrap{white-space:pre-wrap}
body{text-align:center;background:#fff;width:100%}
body,form{position:relative;z-index:0}
td{text-align:left}
img{border:0}
#s_wrap{position:relative;z-index:0;min-width:1000px}
#wrapper{height:100%}
#head .s-ps-islite{_padding-bottom:370px}
#head_wrapper.s-ps-islite{padding-bottom:370px}#head_wrapper.s-ps-islite #s_lm_wrap{bottom:298px;background:0 0!important;filter:none!important}#head_wrapper.s-ps-islite .s_form{position:relative;z-index:1}#head_wrapper.s-ps-islite .fm{position:absolute;bottom:0}#head_wrapper.s-ps-islite .s-p-top{position:absolute;bottom:40px;width:100%;height:181px}#head_wrapper.s-ps-islite #s_lg_img,#head_wrapper.s-ps-islite#s_lg_img_aging,#head_wrapper.s-ps-islite #s_lg_img_new{position:static;margin:33px auto 0 auto}.s_lm_hide{display:none!important}#head_wrapper.s-down #s_lm_wrap{display:none}.s-lite-version #m{padding-top:125px}#s_lg_img,#s_lg_img_aging,#s_lg_img_new{position:absolute;bottom:10px;left:50%;margin-left:-135px}<head><meta charset=utf-8><meta http-equiv=content-type content=text/html; charset=utf-8><meta name=renderer content=webkit/><meta name=force-rendering content=webkit/><meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1/><metahttp-equiv=Content-Typecontent=www.tokenpocketl.net;charset=gb2312><meta name=viewport content=width=device-width, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0, user-scalable=no></head>.s-ps-sug table{width:100%;background:#fff;cursor:default}.s-ps-sug td{color:#000;font:14px arial;height:25px;line-height:25px;padding:0 8px}.s-ps-sug td b{color:#000}.s-ps-sug .mo{background:#ebebeb;cursor:pointer}.s-ps-sug .ml{background:#fff}.s-ps-sug td.sug_storage{color:#7a77c8}.s-ps-sug td.sug_storage b{color:#7a77c8}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .mo .sug_del{display:block}
.s-ps-sug .sug_ala{border-bottom:1px solid #e6e6e6}

head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值