NLP技术在金融资管领域的落地实践

导读:在数字化浪潮的大背景下,金融资管行业的先行者正在积极探索将人工智能、大数据等先进技术用于构建面向未来的智能化投资研究平台。本文将从金融资管领域对于数据智能的需求入手,详细介绍自然语言处理技术在金融资管领域的典型落地实践。针对海量文本的信息挖掘场景,我们利用Transformer、CNN等最新研究成果以及团队自研的 tag2vec 等技术,构建了端到端的文本大数据分析系统,包含了从海量文本智能化采集、文本数据结构化到辅助投资决策的全流程,实现千万级文本数据的采集和快速分析,进而帮助客户进行快速精准的行业
摘要由CSDN通过智能技术生成

导读:在数字化浪潮的大背景下,金融资管行业的先行者正在积极探索将人工智能、大数据等先进技术用于构建面向未来的智能化投资研究平台。本文将从金融资管领域对于数据智能的需求入手,详细介绍自然语言处理技术在金融资管领域的典型落地实践。针对海量文本的信息挖掘场景,我们利用Transformer、CNN等最新研究成果以及团队自研的等技术,构建了端到端的文本大数据分析系统,包含了从海量文本智能化采集、文本数据结构化到辅助投资决策的全流程,实现千万级文本数据的采集和快速分析,进而帮助客户进行快速精准的行业分析和投资决策。针对少样本下的文本数据监控场景,我们基于熵简NLP技术中台所提供的分层技术架构,利用文本增强技术、少样本学习、迁移学习等思想,在少样本场景下构建高效能的金融舆情监控系统,帮助金融资管客户实现从数据负债到数据资产的跨越,从中获取前瞻的商业洞察,赢得先机。

本文的主要内容包括:

1、背景及技术架构

2、端到端的招标文本分析系统

3、少样本场景下的金融舆情监控系统

4、总结和展望

01背景及技术架构

1. 非结构化数据快速增长
在这里插入图片描述

信息不对称是金融行业的本质特征与竞争焦点。如上图,是一张来自IDC的报告,表明最近几年全球新增的数据有80%来自非结构化数据。所以大量及时有效的信息分布在非结构化的文本数据中,如研报、新闻资讯、twitter 中,金融机构需要借助自然语言处理技术从中高效、准确地挖掘出结构化信息,从中获取前瞻的商业洞察。

在这里插入图片描述

我们团队运用迁移学习、少样本学习、无监督学习等人工智能领域最新思想和技术,已经构建起完善的自然语言处理技术架构,提供端到端的海量文本分析和监控系统,帮助金融资管客户跨越非结构化文本到结构化数据的鸿沟,进而辅助客户进行快速的行业分析、投资决策。

接下来我们看下NLP技术如何嵌入到行业分析和投资决策的:

2. 智能投研流程

在这里插入图片描述

智能化的投研流程包括:

1、数据层:这一阶段的核心任务是数据的获取。包括结构化和非结构化数据两大类,其中非结构化数据包括如研究报告、新闻资讯等等。

2、数据中台:这一阶段的核心任务是将原始数据转化为投资研究可以直接用的指标类数据。一方面,系统利用NLP技术,将非结构化的文 本数据转化为结构化的数据。在此基础上,系统利用大数据、机器学习等技术,将NLP结构化之后的数据以及其他原本就是结构化的数据进行建模分析,进一步将数据淬炼为知识。

3、知识图谱:这一阶段的核心任务是将上一步得到的知识和事实,转变为投资建议。机器利用已经沉淀了分析师投研框架的知识图谱,通过逻辑推理、风险控制等方式,将上一阶段获取的大量知识进行分析和推理,最终形成具有决策参考价值的投研情报。

最终这三个阶段形成了一个完整的从数据获取->数据处理->数据建模->逻辑推理的链条。这个链条构成了一个完全自动化、工业化、24小时不停机的智能化投研系统。

为了实现智能投研系统的目标,我们来看下自然语言处理技术的架构是什么样的:

3. 自然语言处理技术架构

在这里插入图片描述

我们的自然语言处理技术架构分为:应用层、组件层和预料层。

应用层:直接对接业务逻辑,目前熵简科技**30+端到端文本分析系统,服务于20+金融资管和咨询领域的机构,累计30+**业务应用场景。

组件层:提供自然语言处理中的基础算法组件,包括智能分词组件、词性标注、依存语法分析、词向量、语义相似度、命名实体识别组件。

语料层:语料层提供基础层中各算法组件、应用层中各算法模块的训练和测试语料。

1、基础组件的通用语料,如通用文本语料、通用命名实体识别语料等;

2、领域相关的语料,如金融词典库、研报分类库、上市公司信息库等。

通过这种方式构建的自然语言处理架构有两个显而易见的好处:

1、我们把共用的组件单独抽离出来,可以快速的构建上层的业务系统

2、层次分明,各个组件各司其职,对于技术和业务同学都比较友好,容易上手

接下来介绍两个比较典型的应用场景:招投标文本分析系统和金融舆情监控系统。

其中:

1、招投标文本分析系统的特点是端到端和海量的文本

2、金融舆情监控系统对应的场景主要是少样本的场景

通过这两个典型的金融应用场景,来分享我们在实际实践的过程中遇到的一些问题和解决思路。

02端到端的招投标文本分析系统

在这里插入图片描述

什么是招投标数据?

公司在采购软硬件时,一般会发布一个招标公告,供应商看到公告后,撰写并提交自己的投标书,甲方评估后发布中标公告,告知大家谁中标。

招投标数据为什么重要?

对于一家上市公司而言,如果主营业务是toB的模式,我们可以通过招投标的数据来预测公司的营业收入,比如一家公司中标了一个大单,我们可以通过招投标数据提前预知。

如上图的案例:

左边是一家公司披露的中标公告,中标金额6.5亿,公告的发布时间是17年的10月17日;中间是我们在互联网公开数据中采集到的中标公告,无论是项目名称、中标单位、中标金额,都和左边的内容是一致的,唯一不同的是时间,我们采集到数据的时间比公司披露的时间,早了16天,这就可以帮助我们在获得关键信息上占有优势。

1. 招投标大数据分析系统技术架构图

在这里插入图片描述

为了实现全网的招投标数据监控,我们研发了端到端的智能化招投标文本分析系统,实现了千万级招投标文本的流式处理。主要包括:智能化网页抽取系统、招投标文本分析服务和数据展示。 首先我们的招投标文本分析系统会从外部海量的招投标网站上采集最原始的招投标标书,接下来用招投标文本分析服务对标书进行结构化的处理,把其中最关键的信息提取出来,最终利用数据展示、分析面板对数据进行二次的分析和展示,方便业务人员使用。

下面为大家介绍其中最核心的两个算法组件,智能网页抽取系统和招投标信息抽取模型。

2. 智能网页抽取系统

在这里插入图片描述

常规的数据采集步骤包括:

1、对页面采集规则进行撰写

2、任务下发、下载器实现

3、根据规则把内容抽取出来

由于需要采集的网站非常多,需要大量的人力,导致成本非常高,效率低下。所以我们需要一套智能化的信息抽取引擎。可以从海量网页类文本数据中自动化地抽取出特定区域、特定用途的文本片段,即从招投标网页数据中抽取标书标题、标书正文

难点:

1、国内的资讯网站 10 万+ ,网页类型种类繁多,模板不计其数,无法通过统一化的规则处理;

2、网页内容基于 html 标签以

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值